具身智能独角兽「星海图」新论文引热议，谢赛宁转评：最好和Yann LeCun的新作一起看|新论文|时延|星海图|显式|智能体|机器人|谢赛宁

大数据文摘受权转载自头部科技

文丨丁灵波

今天，国内具身智能明星公司星海图发表了一篇新论文，星海图联合创始人兼首席科学家赵行发帖表示：最近对世界行动模型（WAM）的研究发现，WAM的核心优势不在于测试时对未来的“想象”，而在于训练时来自未来视频预测的监督。

该团队提出了Fast-WAM，它使推理变得简单、快速且以策略为中心。

赵行除了在公司任职，目前也担任清华大学交叉信息学院的助理教授、Mars lab主任；2026年2月，星海图完成10亿元B轮融资，截至本轮，该公司累计融资额近30亿元，估值达百亿级别。

这篇新论文引起了不少业内研究员关注和评论，AI圈知名青年学者、现任AMI联合创始人兼首席科学官的谢赛宁转发称：“ 最好与LeWorldModel论文一起阅读，别问我为什么。 ”

谢赛宁提到的“ LeWorldModel”是图灵奖得主、AMI创立者Yann LeCun最新发表的另一篇论文成果。

一起来看看，这两项最新研究都讲了什么。

比现有WAM快4倍以上

在目前的具身控制领域中，世界动作模型（WAMs）被视为替代视觉-语言-动作（VLA）模型的一种极具前景的方案。

现有大多数WAM均采用先想象后执行范式，迭代式视频去噪会产生显著的测试时延，然而，显式预测未来画面对实现优异动作性能是否必不可少，目前尚不明确。

星海图（Galaxea AI）团队在新论文中展开探讨：WAM在测试阶段是否需要显式的未来想象，其性能增益是否主要来自训练阶段的视频建模？

该团队提出了Fast-WAM架构，将训练阶段的视频建模与推理阶段的显式未来生成解耦——该架构在训练时保留视频联合训练，测试时则跳过未来预测环节，此外，还进一步设计了多种Fast-WAM变体，以实现对这两种因素的对照研究。

简单来说，Fast-WAM基于预训练的视频扩散变换器骨干网络和动作专家DiT构建。

在训练过程中，它联合学习动作预测和视频建模，从而使共享的视觉骨干网络获得更强的与世界相关的表征。

在推理阶段，Fast-WAM仅保留当前观测中干净的潜在标记，并利用视频主干网对其进行一次处理，然后直接生成动作，无需显式地对后续视频进行去噪，这消除了先想象后执行的WAM的主要运行时瓶颈。

实验结果表明：Fast-WAM的性能与“先想象后执行”类模型性能相当，而移除视频联合训练会导致性能大幅下降。

在无需具身预训练的条件下，Fast-WAM在仿真基准（LIBERO、RoboTwin）和真实世界任务上均取得了与当前最优方法可比的效果，该模型可实时运行，时延仅190毫秒，速度比现有先想象后执行的WAM快4倍以上。

而“先想象后执行”类变体则明显更慢，尤其是Fast-WAM-IDM时延高达810毫秒，这使得Fast-WAM成为更适合实际部署的优选方案，在保持出色任务性能的同时，大幅降低了推理开销。

通过在仿真与真实机器人基准上的对照实验（含有无视频联合训练的变体），该团队证明WAM中视频预测的主要价值，更多体现在训练阶段学习更优质的世界表征，而非测试阶段生成未来观测。

单GPU可跑的世界模型

而谢赛宁建议和Fast-WAM一起看的“LeWorldModel”是Yann LeCun近期署名的一篇新作，也是对他此前提出的联合嵌入预测架构（JEPA）的一种优化延展。

人工智能的核心目标之一，是研发能够在多样化任务与环境中习得技能的智能体，世界模型（WMs）被视为是一种颇具潜力的方法，一旦训练成功，世界模型能让智能体仅依靠自身构建的世界模型进行规划与自我提升，即在想象空间中完成学习。

这在离线学习场景下尤为重要：智能体只能从固定数据集中学习，无法与环境交互，可借助世界模型生成仿真经验，并评估反事实动作序列。

一种主流的世界模型学习方法便是联合嵌入预测架构（JEPA），JEPA并不试图建模环境的全部细节，而是专注于捕捉预测未来状态所需的最关键特征，尽管理念简洁，但现有JEPA方法极易发生表征坍缩，避免坍缩是训练JEPA模型的核心挑战之一。

为突破这项挑战，该团队提出了LeWorldModel（LeWM），该方法首次实现了从原始像素端到端学习稳定的JEPA模型。

值得关注的是，LeWM仅是一个1500万参数的紧凑模型，可在单张GPU上完成训练，大幅降低了相关研究的入门门槛。

研究人员在2D与3D环境中的各类操作、导航与运动任务上对LeWM进行了全面评估，并检验了模型对物理规律的直观理解能力，LeWM与基于基础模型的世界模型相比性能相当，但成本大幅更低，规划速度最高提升48倍。

整体而言，LeWM为现有隐式世界模型方法提供了一种可扩展的替代方案，具备原理清晰的训练动态，以及可解释、可涌现的表征特性，论文最后也指明了几个重要研究方向：

1、目前基于隐式世界模型的规划仍局限于较短时域，层次化世界建模是解决长时域推理与规划的一个重要方向。

2、本方法仍依赖覆盖度足够的离线交互数据集，这类数据采集成本高、难度大，在大规模、多样化的自然视频数据集上进行预训练，有望提供更强的表征先验，并降低对领域专属数据的依赖。

3、当前端到端隐式世界模型依赖动作标签来预测未来状态，而动作标注同样获取成本高昂，一个可行方向是通过逆动力学建模学习未来动作表征，从而减少对显式动作标注的依赖。

结语：具身智能的技术拐点

业内人士分析认为，站在具身智能与人形机器人产业化的视角看，Fast-WAM和LeWM并不是两篇孤立的学术进展，而是世界模型从“概念验证”走向“真机落地”的关键拐点，世界模型驱动具身智能即将迈向新阶段。

前者解决了世界动作模型跑不起来、时延太高的致命问题，后者解决了JEPA世界模型训不出来、成本太高的工程死穴，一方面让WAM级别能力满足了真机实时控制的要求，另一方面，未来机器人可能不必再走“大模型暴力堆砌”的路线，轻量化世界模型同样可以具备出色的物理推理能力。

这些技术进展贴合机器人规模化落地需求，未来1–2年，更好用的新一代机器人大脑正在呼之欲出。

GPU 训练特惠！

H100/H200 GPU算力按秒计费，平均节省开支30%以上！

扫码了解详情☝

点「赞」的人都变好看了哦！

具身智能独角兽「星海图」新论文引热议，谢赛宁转评：最好和Yann LeCun的新作一起看

热搜

热门跟贴

热搜

热门跟贴

相关推荐

谷歌发文：AI奇点不会是一个超级大脑，而是万亿智能体的社会

马斯克：留给旧世界的时间，只剩 1000 天！中国会在 AI 时代胜出

龙虾也能养龙虾！UCSD发布AIBuildAI智能体，MLE-Bench榜单第一

本以为宇树科技就牛了，没想到还有厉害的机器人大神，能飞能变型

马斯克一语定调：AI算法，正式开启人类文明新纪元

「你是专家」竟成AI幻觉毒药？新论文一巴掌揭穿提示词最大骗局

AI会抢了人类饭碗，为什么还要大力发展呢？原来是一场“阳谋”

智力不详能力超强

独角兽竟是一场千年骗局！为何全球都有独角兽传说？

2026年AI作图新玩法：佐糖AI一键生成逼真商品试戴图，成本暴降90%

你以为马斯克在造飞船，其实他在造“文明操作系统”

OpenAI关停Sora！25个月从封神到退场

直面Seedance2.0挑战？快手可灵想要年内收入翻倍

男人每天虐待自家的机器人

机器人表演武术，把大妈激动得直呼，哎呀妈呀太厉害啦！

高效智能体幕后推手是谁？一篇综述带你从记忆×工具学习×规划看透

世界模型开始做减法？LeCun团队和清华团队给出两种思路

从匹配困境到推理突破：阿里REG4Rec 激活生成式推荐的个性化潜力

世界模型最新综述！中科院联合MBZ、NTU、Oxford系统梳理前沿进展

多模态预训练，才是大模型的下一条路？Yann LeCun、谢赛宁参与