6人AI团队融资5亿：视频训练让模型学会"看屏幕"

我是一个粉刷匠2

2026-05-01 09:16 ·北京

当所有人都在卷算力、堆参数时，一家只有6个人的公司用一段视频告诉行业：训练数据可以便宜1000倍。

Standard Intelligence今天披露7500万美元融资，红杉和Spark Capital领投，Andrej Karpathy以个人身份参投。这家公司没有大模型，没有聊天机器人，只做一件事——让AI像人类一样操作电脑界面。

他们的模型叫FDM-1，核心卖点不是参数规模，而是训练方式彻底换了一条路。

截图训练的痛点：每张图都要人写"说明书"

现有"电脑使用模型"（让AI点击按钮、填写表单的系统）普遍依赖一个笨办法：录屏截图，然后人工写注释。

想象你教AI网购。你需要拍下"点击搜索框""输入关键词""选择商品"每一步的屏幕，再给每张图配一段自然语言描述。这套流程成本极高，导致开源数据集通常只有几万小时量级。

Standard Intelligence直接扔掉截图，改用视频训练。更关键的是，他们用"逆动力学模型"（inverse dynamics model，简称IMD）替代了人工注释。

IMD是一个神经网络，能自动生成截图解释。公司声称，这种自动化标注让成本"显著降低"——具体结果是：他们攒出了1100万小时的训练数据，比开源竞品高出多个数量级。

视频编码器：100倍效率的"压缩艺术"

FDM-1的另一个技术标签是"省硬件"。公司披露，其视频编码器比OpenAI的同类方案高效100倍。

视频编码器的作用是把画面转成AI能理解的数学表示。这个环节历来是内存杀手——压缩表示会损失信息，不压缩则硬件扛不住。

Standard Intelligence的解法叫"掩码压缩目标"（masked compression objective）：自动识别并删除画面中的无关信息。不是粗暴压缩，而是选择性遗忘。

这个设计带来连锁反应：FDM-1不需要"思维链"（chain-of-thought，即AI边做边自言自语的推理方式），也不需要调用外部工具，直接端到端完成任务。

两个演示：1小时学会开车，CAD建模

公司放出的demo视频里，FDM-1完成了两项任务。

第一项是用主流工程软件设计金属零部件——全程通过图形界面操作，没有调用API。

第二项更夸张：工程师把一辆自动驾驶汽车的控制界面搬上网站，FDM-1只经过1小时微调，就学会了通过网页操控车辆。

这两个案例指向同一个产品逻辑：不改造软件，不开放接口，AI直接"看"着界面干活。这对企业软件的自动化有现实意义——全球绝大多数内部系统既没有API文档，也不会为AI改造。

为什么是现在？数据瓶颈倒逼新路径

Standard Intelligence的融资时机耐人寻味。2024-2025年，"电脑使用模型"成为AI竞赛的新前线：OpenAI的Operator、Anthropic的Computer Use、Google的Project Mariner接连发布。

但行业共同卡在同一个地方：标注成本。截图+人工注释的模式决定了数据集天花板，而数据量直接锁死模型能力。

Standard Intelligence用视频+自动标注撕开缺口。1100万小时 vs 开源竞品的"多个数量级"差距，本质是训练经济学的一次重构。

红杉和Spark Capital的押注逻辑可能在此：当大厂还在优化模型架构时，有人从数据生产端颠覆了成本结构。

6人团队的启示：垂直切口+工程创新

7500万美元，6个人，没有产品发布会，没有技术博客连载，只有一段视频和两个demo。

这种极简风格本身是一种信号：在AI基础设施层，仍然存在"小团队技术突袭"的空间。前提是找到足够痛的痛点（标注成本）、足够具体的场景（GUI自动化）、足够差异化的工程解法（视频编码器+IMD）。

FDM-1尚未开放测试，商业化路径也未披露。但这家公司已经证明了一件事：训练数据的规模瓶颈，可以用更聪明的工程而非更昂贵的标注来打破。

对于每天被内部系统折磨的IT部门和RPA厂商来说，这可能比又一个聊天机器人更值得等待。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴