大数据文摘受权转载自头部科技

文丨丁灵波

今天,国内具身智能明星公司 星海图发表了一篇新论文, 星海图联合创始人兼首席科学家赵行发帖表示:最近对世界行动模型(WAM)的研究发现,WAM的核心优势不在于测试时对未来的“想象”,而在于训练时来自未来视频预测的监督。

该团队提出了Fast-WAM,它使推理变得简单、快速且以策略为中心。

赵行除了在公司任职,目前也担任清华大学交叉信息学院的助理教授、Mars lab主任;2026年2月,星海图完成10亿元B轮融资,截至本轮,该公司累计融资额近30亿元,估值达百亿级别。

打开网易新闻 查看精彩图片

这篇新论文引起了不少业内研究员关注和评论,AI圈知名青年学者、现任AMI联合创始人兼首席科学官的谢赛宁转发称:“ 最好与LeWorldModel论文一起阅读,别问我为什么。 ”

谢赛宁提到的“ LeWorldModel”是图灵奖得主、AMI创立者Yann LeCun最新发表的另一篇论文成果。

一起来看看,这两项最新研究都讲了什么。

比现有WAM快4倍以上

在目前的具身控制领域中,世界动作模型(WAMs)被视为替代视觉-语言-动作(VLA)模型的一种极具前景的方案。

现有大多数WAM均采用先想象后执行范式,迭代式视频去噪会产生显著的测试时延,然而,显式预测未来画面对实现优异动作性能是否必不可少,目前尚不明确。

星海图(Galaxea AI)团队在新论文中展开探讨:WAM在测试阶段是否需要显式的未来想象,其性能增益是否主要来自训练阶段的视频建模?

打开网易新闻 查看精彩图片

该团队提出了Fast-WAM架构,将训练阶段的视频建模与推理阶段的显式未来生成解耦——该架构在训练时保留视频联合训练,测试时则跳过未来预测环节,此外,还进一步设计了多种Fast-WAM变体,以实现对这两种因素的对照研究。

打开网易新闻 查看精彩图片

简单来说,Fast-WAM基于预训练的视频扩散变换器骨干网络和动作专家DiT构建。

在训练过程中,它联合学习动作预测和视频建模,从而使共享的视觉骨干网络获得更强的与世界相关的表征。

在推理阶段,Fast-WAM仅保留当前观测中干净的潜在标记,并利用视频主干网对其进行一次处理,然后直接生成动作,无需显式地对后续视频进行去噪,这消除了先想象后执行的WAM的主要运行时瓶颈。

实验结果表明:Fast-WAM的性能与“先想象后执行”类模型性能相当,而移除视频联合训练会导致性能大幅下降。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在无需具身预训练的条件下,Fast-WAM在仿真基准(LIBERO、RoboTwin)和真实世界任务上均取得了与当前最优方法可比的效果,该模型可实时运行,时延190毫秒,速度比现有先想象后执行的WAM4倍以上

而“先想象后执行”类变体则明显更慢,尤其是Fast-WAM-IDM时延高达810毫秒,这使得Fast-WAM成为更适合实际部署的优选方案,在保持出色任务性能的同时,大幅降低了推理开销。

打开网易新闻 查看精彩图片

通过在仿真与真实机器人基准上的对照实验(含有无视频联合训练的变体),该团队证明WAM中视频预测的主要价值,更多体现在训练阶段学习更优质的世界表征,而非测试阶段生成未来观测。

单GPU可跑的世界模型

而谢赛宁建议和Fast-WAM一起看的“LeWorldModel”是Yann LeCun近期署名的一篇新作,也是对他此前提出的联合嵌入预测架构(JEPA)的一种优化延展。

打开网易新闻 查看精彩图片

人工智能的核心目标之一,是研发能够在多样化任务与环境中习得技能的智能体,世界模型(WMs)被视为是一种颇具潜力的方法,一旦训练成功,世界模型能让智能体仅依靠自身构建的世界模型进行规划与自我提升,即在想象空间中完成学习。

这在离线学习场景下尤为重要:智能体只能从固定数据集中学习,无法与环境交互,可借助世界模型生成仿真经验,并评估反事实动作序列。

一种主流的世界模型学习方法便是联合嵌入预测架构(JEPA),JEPA并不试图建模环境的全部细节,而是专注于捕捉预测未来状态所需的最关键特征,尽管理念简洁,但现有JEPA方法极易发生表征坍缩,避免坍缩是训练JEPA模型的核心挑战之一

为突破这项挑战,该团队提出了LeWorldModel(LeWM),该方法首次实现了从原始像素端到端学习稳定的JEPA模型

打开网易新闻 查看精彩图片

值得关注的是,LeWM仅是一个1500万参数的紧凑模型,可在单张GPU上完成训练,大幅降低了相关研究的入门门槛。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

研究人员在2D与3D环境中的各类操作、导航与运动任务上对LeWM进行了全面评估,并检验了模型对物理规律的直观理解能力,LeWM与基于基础模型的世界模型相比性能相当,但成本大幅更低,规划速度最高提升48倍

打开网易新闻 查看精彩图片

整体而言,LeWM为现有隐式世界模型方法提供了一种可扩展的替代方案,具备原理清晰的训练动态,以及可解释、可涌现的表征特性,论文最后也指明了几个重要研究方向:

1、目前基于隐式世界模型的规划仍局限于较短时域,层次化世界建模是解决长时域推理与规划的一个重要方向。

2、本方法仍依赖覆盖度足够的离线交互数据集,这类数据采集成本高、难度大,在大规模、多样化的自然视频数据集上进行预训练,有望提供更强的表征先验,并降低对领域专属数据的依赖。

3、当前端到端隐式世界模型依赖动作标签来预测未来状态,而动作标注同样获取成本高昂,一个可行方向是通过逆动力学建模学习未来动作表征,从而减少对显式动作标注的依赖。

结语:具身智能的技术拐点

业内人士分析认为,站在具身智能与人形机器人产业化的视角看,Fast-WAM和LeWM并不是两篇孤立的学术进展,而是世界模型从“概念验证”走向“真机落地”的关键拐点,世界模型驱动具身智能即将迈向新阶段。

前者解决了世界动作模型跑不起来、时延太高的致命问题,后者解决了JEPA世界模型训不出来、成本太高的工程死穴,一方面让WAM级别能力满足了真机实时控制的要求,另一方面,未来机器人可能不必再走“大模型暴力堆砌”的路线,轻量化世界模型同样可以具备出色的物理推理能力。

这些技术进展贴合机器人规模化落地需求,未来1–2年,更好用的新一代机器人大脑正在呼之欲出 。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!