720小时双臂操作数据、37倍速度提升、3百万训练样本——这些数字来自一家非营利研究机构,而非硅谷最烧钱的AI实验室。

西雅图Ai2(艾伦人工智能研究所)今天放出MolmoAct 2,直接对标市面上所有闭源机器人模型。更关键的是,他们选择全盘开源。

打开网易新闻 查看精彩图片

这不是简单的版本迭代

去年8月,Ai2首次发布MolmoAct,用22小时精选数据证明了一件事:开放的推理架构可以击败体量更大的闭源模型。当时这个结论在行业内引发争议——毕竟主流声音认为,机器人模型需要海量真实数据才能可用。

MolmoAct 2的升级路径很激进。团队没有基于视频理解模型Molmo 2做简单扩展,而是从Molmo 2-ER(具身推理变体)重新搭建架构。这个决策意味着放弃现成的技术债务,回到原点设计。

训练数据构成揭示了技术路线的差异。模型吸收了超过300万个样本,涵盖图像指向、物体检测、抽象空间推理、多图像推理,以及基于图像和视频的空间问答。这些任务指向同一个目标:让机器在行动前先完成3D环境推理。

核心机制是"行动专家"模块——模型内部专门生成机器人动作的组件,与3D推理能力深度耦合。这种架构设计解释了速度提升的来源:不是堆算力,而是减少决策路径中的冗余步骤。

双臂数据集的规模博弈

MolmoAct 2-Bimanual YAM的发布可能改变行业数据格局。720小时以上的双手臂操作演示,是目前公开可查的最大规模同类数据集。

"双手臂"(Bimanual)在机器人学中有特定含义:两个机械臂协同完成单一任务。典型场景包括折叠毛巾、扫描商品、给手机充电、清理桌面——这些动作需要双臂配合而非独立运作。

数据集的构建过程暴露了开源社区与工业界的差距。Ai2团队重新标注了整个机器人库,将唯一标签数量从71,000提升至约146,000。同时压缩了重复指令和低质量注释,使语言指令的多样性显著改善。

为增强泛化能力,数据集还混合了不同机械臂、相机配置、控制方案和任务风格的机器人数据。这种"数据增强"策略针对的是机器人模型的致命弱点:在训练环境之外的表现崩溃。

正方:开源模式的效率悖论

支持Ai2路线的核心论据来自对比数据。MolmoAct 2在多项行业基准测试中超越闭源竞品,同时处理真实世界任务的速度达到前代的37倍。

速度提升的数字需要拆解。37倍不是推理速度,而是任务完成效率——从接收指令到物理动作执行的端到端时间。这意味着模型在"理解要做什么"和"规划怎么做"两个阶段都有改进。

斯坦福医学院Cong Lab的试点提供了验证场景。该实验室由Le Cong教授领导,研究重心是机器人在医疗环境中的实际应用。选择这个合作方而非传统制造业,暗示Ai2对模型泛化能力的信心——医院环境的变量复杂度远高于结构化工厂。

开源策略的隐性优势在于迭代速度。闭源模型的改进周期受限于内部测试资源,而MolmoAct 2的架构允许全球研究者贡献场景数据。720小时数据集只是起点,后续扩展不依赖单一机构的采集能力。

反方:数据规模与场景陷阱

质疑声音集中在三个层面。首先,720小时对于通用机器人模型是否足够?作为参照,特斯拉Optimus的训练数据量从未公开,但业界推测其采集规模以"百万小时"为单位计量。

其次,双臂操作数据集的任务覆盖存在盲区。Ai2列举的示例——叠毛巾、扫码、充电、清桌——都属于结构化程度较高的家庭/服务场景。工业装配、户外作业、非刚性物体操作等硬核场景的代表性不足。

更深层的问题是评估标准。Ai2声称超越"行业基准测试",但未披露具体对比的闭源模型名单和测试条件。机器人领域的基准测试 notoriously 容易过拟合,模型在标准数据集上表现优异,迁移到真实环境后性能骤降的案例比比皆是。

斯坦福试点的时间线也存疑。从发布时间推断,实际部署测试的周期可能仅有数月。对于需要长期稳定性验证的机器人系统,这个观察窗口是否足以支撑"真实世界就绪"的结论?

判断:一场关于"足够好"的重新定义

MolmoAct 2的真正意义不在于击败某个具体竞品,而在于证明了一条被忽视的路径:用精心设计的架构和高质量数据,替代 brute-force 式的规模堆砌。

37倍速度提升和720小时数据集构成一组有趣的对照。它暗示机器人智能的瓶颈可能不在数据总量,而在数据结构与模型能力的匹配度。Ai2的重新标注策略——将标签数量翻倍同时提升质量——是这个假设的技术注脚。

开源决策的商业影响需要持续观察。机器人模型的部署成本不仅包括推理算力,还涉及硬件适配、安全认证、维护体系。Ai2作为非营利机构可以回避这些环节,但企业用户的实际采用率取决于生态建设,而非技术参数本身。

一个被低估的变量是双臂操作的普及节奏。当前主流服务机器人以单臂为主,双臂系统的硬件成本和维护复杂度显著更高。MolmoAct 2-Bimanual YAM的数据优势,能否转化为可规模化的产品形态,尚无定论。

数据收束:22小时原始数据验证了架构可行性,720小时双臂数据集支撑了场景扩展,3百万训练样本定义了能力边界——这三个数字勾勒出Ai2的技术赌注:在机器人智能的竞赛中,精准投入可能比无限资源更接近终点。