如果你还以为世界模型只是把虚拟场景渲染得更逼真,那么2026年的这场顶级竞赛会彻底击碎这个幻想。在刚刚落幕的AGIBOT WORLD CHALLENGE@ICRA 2026世界模型赛道上,冠亚军团队抛出了一个近乎“掀桌子”的判断:世界模型的未来根本不是要比谁家画面更精美,而是谁能真正教会机器人“先动脑再动手”。从视觉生成到决策推理,这个赛道正经历一场判定生死的关键漂移——而一支中国团队用一条离线优化管线,率先拿到了打开新世界大门的钥匙。

这场由AGIBOT WORLD超大规模数据集支撑的赛事,从规则设计上就毫不掩饰它的野心:真实机器人任务导向。它考察的不是模型能不能生成一段“看起来合理”的视频,而是模型能否在动作可控性、物理一致性和决策可用性上过关。换句话说,就算你把虚拟世界渲染得跟科幻大片一样,只要机器人在那里把杯子推向桌边却没有掉落的物理反馈,或者在执行“向左转”指令时画面飘忽不定,分数就会直接崩盘。这正是冠亚军团队在访谈中反复敲响的警钟——世界模型的“花瓶时代”结束了,能输出可靠策略的模型才是真王者。

打开网易新闻 查看精彩图片

冠军队伍NeoVerse-Abot来自中国科学院自动化所NLPR与高德地图CV Lab的联合战队,他们一针见血地指出:2026年世界模型的主议题,已经从“生成合理视频”转向“支撑具身智能决策以及推理”。而他们捧回冠军手里的关键武器,竟是一条看似枯燥的“离线内外参优化管线”。这条管线并非推翻重来,而是像一位严苛的精密校准师——它把机器人采集的RGB视频和关节运动状态数据打包,再组合成熟的视觉感知模型,对相机的内参、外参和畸变参数进行后处理联合优化。用团队核心算法开发者李锐智的话说:“机器人组装和相机安装过程中的误差,会在空间投影上产生微小的错位,而我们要做的就是在数据进入世界模型之前,把这些干扰统统校准。”正是这一步看似不起眼的工程化手术,让动作指令与视觉感知空间实现了精准对齐,直接把他们送上了action following指标的冠军宝座。

面对这样一个决定胜负的技术突破,赛事合作方焉知的追问直接切中要害:管线到底整合了什么数据?用了哪些视觉感知模型?动作控制确定性究竟提升了多少?李锐智的回应拆解了三个精确步数:第一步,提取机器人原始RGB视频和关节运动数据,这是校准的基础;第二步,组合现有成熟视觉感知模型,对相机内外参与畸变参数进行联合优化;第三步,通过后处理让视频生成模型获得机器人真实的内外参状态,让视频中的动作不再偏移。这种把工程细节转化为决胜优势的路线,离不开高德地图CV Lab在大规模视觉感知、空间理解领域多年的技术深蹲。

亚军物理智能团队(PAI@IAII)同样亮出了对标痛点的主张——世界模型必须“提升具身策略学习”,让模型能准确回答“机器人执行特定操作后世界如何变化”。如果模型生成的分割对象脱离实际物理控制,即便看起来再华丽,也不过是一个能看不能用的“视觉花瓶”。这种从“表面生成”到“深度理解”的蜕变,让动作可控性、物理一致性成为了具身智能模型新的生死线。赛事评分体系也毫不妥协地顺应了这一趋势,谁在逻辑和物理规则面前露怯,谁的排名就会血崩。

冠亚军团队的技术路径,巧妙地画出了两条未来的延展线:一边是学术前沿与工程落地的深度咬合,一边是工业场景和技术深耕的相互喂养。当世界模型不再沉迷于渲染更真实的云朵和倒影,而是一头扎进机器人抓取、推拉、避障的物理世界时,模型给出的就不再是“看起来不错”的画面,而是能直接输入决策层的可执行策略。这一转向,也许会让那些还在追求视觉奇观的团队感到刺痛,但对整个具身智能产业来说,恰恰是甩掉浮肿、真正起跳的那个瞬间。