企业想要的AI视频分析,从来不是新鲜事。监控画面实时预警、自动剪出营销片高光片段、识别面试者的微表情——这些场景的需求一直都在。但能把成本压到行业龙头十分之一的,Perceptron Inc.是头一个。
这家成立仅两年的公司今天放出旗舰模型Mk1,API定价0.15美元/百万token输入、1.50美元/百万token输出。对比Anthropic的Claude Sonnet 4.5、OpenAI的GPT-5、Google的Gemini 3.1 Pro,价格差距拉到80%-90%。
创始人Armen Aghajanyan的履历是Meta FAIR和微软。团队花了16个月从零搭建"多模态配方",专门处理物理世界的复杂动态——物体怎么运动、因果关系怎么建立、物理规律如何约束。
基准测试的数字很硬。空间推理测试EmbSpatialBench,Mk1得分85.1,超过Google Robotics-ER 1.5的78.4和阿里Q3.5-27B的约84.5。更极端的RefSpatialBench,Mk1拿到72.4,GPT-5m只有9.0,Sonnet 4.5更是跌到2.2。
视频理解同样能打。EgoSchema"困难子集"——只靠首尾帧推理会失效的场景——Mk1得分41.4,追平阿里Q3.5-27B,把Gemini 3.1 Flash-Lite的25.0甩在身后。VSI-Bench的88.5分,是目前对比模型中的最高记录。
Perceptron自己画了一张"效率前沿"图:横轴是百万token混合成本,纵轴是视频与具身推理测试的平均分。Mk1的位置很微妙——性能贴着GPT-5、Gemini 3.1 Pro,成本却掉到了另一个象限。
现在任何人都能去公开demo站点试玩。对企业客户来说,真正的问号是:当视频AI从"用不起"变成"随便跑",哪些业务流程会被重写?
热门跟贴