打开网易新闻 查看精彩图片

在AI界,有一种说法叫做“像素级焦虑”,即AI模型生成的画面越生动逼真,越容易掩盖其在物理逻辑上的混乱。

正如近期《Science》期刊上加州大学伯克利分校发表的一项重磅研究指出,当前主流AI图像生成器虽已修复畸形手指、乱码文字等低级漏洞,但在透视几何、光照阴影、镜面反射三大物理规则上,仍存在难以根除的缺陷,这也成为识破AI假图最可靠的突破口。

虽然对于普通用户的肉眼来说,这些缺陷无伤大雅,但在具身智能领域,一个能完美生成“机器人拿起杯子”视频的模型,如果无法理解杯子的材质、水的重量以及手部的力度,那么它的训练结果在真实世界中依然寸步难行。

近日,随着ICRA 2026(国际机器人与自动化大会)框架下的AGIBOT WORLD CHALLENGE线上初赛放榜,这一“焦虑”正在被转化为解决实际问题的动力。

在这场由智元机器人主办的重要赛事中,共有来自全球27个国家及地区的526支队伍报名。其中,331支顶尖战队在R2A推理执行赛道决出10强,WM世界模型赛道则有336支队伍角逐出线,中科院自动化所×高德联合团队、俄罗斯GreenVLA等分别斩获赛道冠军,十强队伍将于6月1日登上维也纳总决赛舞台。

这场覆盖全球多国家和地区的顶级赛事,不只是学术竞技,更折射出具身智能正从实验室Demo,走向可部署、可泛化、可量产的产业新阶段。

让机器人“会想、会算、会干活”

ICRA作为全球机器人领域权威盛会,每届吸引超5000名学者与产业人士参与,而本届大赛的核心价值,在于把行业最卡脖子的两大问题摆上擂台:仿真到现实的鸿沟(Sim2Real Gap)、世界模型落地难。

在R2A(Reasoning to Action)赛道中,比拼内容已经从单纯“动手操作”升级为“听懂—规划—执行”全链路考核,要求模型基于真实数据集,在开放、复杂环境中完成长程任务。

团队需用Genie Sim 3.0开源仿真平台训练,评测覆盖语言理解、空间认知、技能操作、扰动适应、零样本迁移五大能力,贴近真实部署场景。

打开网易新闻 查看精彩图片

331支队伍比拼后,最终俄罗斯GreenVLA夺冠,十强包括华南理工、火思动力、加州大学圣迭戈分校等产学研力量。

打开网易新闻 查看精彩图片

如果说R2A赛道考验的是机器人的“手脚”,那么World Model(世界模型)赛道考验的则是机器人的“大脑”与“想象力”。

赛事会评测模型能否根据机器人动作,精准预测视觉画面变化,重点考查“动作跟随、场景一致、物理可信”,而非单纯视频生成好看。

比赛采用全自动无人工评测,超百支队伍超越基线,竞争极为激烈。最终中科院自动化所+高德CV Lab联合团队NeoVerse-Abot夺冠,中科院工业AI所、中科大、重庆大学等团队跻身前列。

打开网易新闻 查看精彩图片

全自动评测流程

值得注意的是,以往人形机器人竞赛多侧重动作表演,而本届大赛用统一数据集、统一仿真平台、统一评测基准,建立可量化、可复现、贴近落地的技术标尺。

目前,智元已经向全球开放AGIBOT WORLD真机数据集与Genie Sim 3.0,让没有硬件、算力有限的高校与初创团队,也能参与顶级研发,大幅降低行业创新门槛。这种“以赛促研、以赛建标”的模式,正在推动行业告别“各说各好”,走向数据—仿真—模型—部署的标准化路径。

竞争转向“虚实融合”与“部署能力”

在业内专家看来,从本次的参赛结构与技术方向可以看出具身智能界的三大趋势:

全球参与度有了明显爆发,两大赛道合计近700支队伍,海外队伍占比近三成,说明中国具身智能开源生态与技术路线,已获得全球学术界与产业界认可。

其次,技术重心已从“炫技”转向“实用”。R2A赛道强调长程任务与泛化,WM赛道强调物理一致性与动作跟随,不再追求视觉效果,而是能不能稳定用在机器人上,直指“实验室好用、现场拉胯”的行业痛点。

此外,在十强名单中,高校、科研院所、初创公司同台竞技,学术研究与工程落地深度绑定,预示下一代机器人技术突破,将来自产学研融合的闭环创新。

随着线上赛收官,10支R2A队伍与WM优胜团队即将奔赴ICRA 2026维也纳总决赛现场,在真实机器人上验证最终效果。

这不仅仅是几支队伍的胜负,更是人类探索物理AI边界的一次集体尝试。在这个2026年的夏天,我们或许正在见证机器从“执行指令的工具”向“理解世界的伙伴”转变的萌芽。

采写:南都·湾财社记者 胡雯雯