当所有人都在卷算力、堆参数时,一家只有6个人的公司用一段视频告诉行业:训练数据可以便宜1000倍。

Standard Intelligence今天披露7500万美元融资,红杉和Spark Capital领投,Andrej Karpathy以个人身份参投。这家公司没有大模型,没有聊天机器人,只做一件事——让AI像人类一样操作电脑界面。

打开网易新闻 查看精彩图片

他们的模型叫FDM-1,核心卖点不是参数规模,而是训练方式彻底换了一条路。

截图训练的痛点:每张图都要人写"说明书"

现有"电脑使用模型"(让AI点击按钮、填写表单的系统)普遍依赖一个笨办法:录屏截图,然后人工写注释。

想象你教AI网购。你需要拍下"点击搜索框""输入关键词""选择商品"每一步的屏幕,再给每张图配一段自然语言描述。这套流程成本极高,导致开源数据集通常只有几万小时量级。

Standard Intelligence直接扔掉截图,改用视频训练。更关键的是,他们用"逆动力学模型"(inverse dynamics model,简称IMD)替代了人工注释。

IMD是一个神经网络,能自动生成截图解释。公司声称,这种自动化标注让成本"显著降低"——具体结果是:他们攒出了1100万小时的训练数据,比开源竞品高出多个数量级。

视频编码器:100倍效率的"压缩艺术"

FDM-1的另一个技术标签是"省硬件"。公司披露,其视频编码器比OpenAI的同类方案高效100倍。

视频编码器的作用是把画面转成AI能理解的数学表示。这个环节历来是内存杀手——压缩表示会损失信息,不压缩则硬件扛不住。

Standard Intelligence的解法叫"掩码压缩目标"(masked compression objective):自动识别并删除画面中的无关信息。不是粗暴压缩,而是选择性遗忘。

这个设计带来连锁反应:FDM-1不需要"思维链"(chain-of-thought,即AI边做边自言自语的推理方式),也不需要调用外部工具,直接端到端完成任务。

两个演示:1小时学会开车,CAD建模

公司放出的demo视频里,FDM-1完成了两项任务。

第一项是用主流工程软件设计金属零部件——全程通过图形界面操作,没有调用API。

第二项更夸张:工程师把一辆自动驾驶汽车的控制界面搬上网站,FDM-1只经过1小时微调,就学会了通过网页操控车辆。

这两个案例指向同一个产品逻辑:不改造软件,不开放接口,AI直接"看"着界面干活。这对企业软件的自动化有现实意义——全球绝大多数内部系统既没有API文档,也不会为AI改造。

为什么是现在?数据瓶颈倒逼新路径

Standard Intelligence的融资时机耐人寻味。2024-2025年,"电脑使用模型"成为AI竞赛的新前线:OpenAI的Operator、Anthropic的Computer Use、Google的Project Mariner接连发布。

但行业共同卡在同一个地方:标注成本。截图+人工注释的模式决定了数据集天花板,而数据量直接锁死模型能力。

Standard Intelligence用视频+自动标注撕开缺口。1100万小时 vs 开源竞品的"多个数量级"差距,本质是训练经济学的一次重构。

红杉和Spark Capital的押注逻辑可能在此:当大厂还在优化模型架构时,有人从数据生产端颠覆了成本结构。

6人团队的启示:垂直切口+工程创新

7500万美元,6个人,没有产品发布会,没有技术博客连载,只有一段视频和两个demo。

这种极简风格本身是一种信号:在AI基础设施层,仍然存在"小团队技术突袭"的空间。前提是找到足够痛的痛点(标注成本)、足够具体的场景(GUI自动化)、足够差异化的工程解法(视频编码器+IMD)。

FDM-1尚未开放测试,商业化路径也未披露。但这家公司已经证明了一件事:训练数据的规模瓶颈,可以用更聪明的工程而非更昂贵的标注来打破。

对于每天被内部系统折磨的IT部门和RPA厂商来说,这可能比又一个聊天机器人更值得等待。