当大语言模型在各类榜单上激烈角逐时,具身智能领域VLA大模型的“打榜时刻”终于来了——但其比拼更严苛:不是刷题,而是真机评测。

2026 年 1 月 30 日,全球首个具身智能大规模真机评测平台 RoboChallenge 发布《RoboChallenge 年度报告(2025 Q4 – 2026 Q1)》,并同步上线官网每日实时更新的公开榜单。

打开网易新闻 查看精彩图片

RoboChallenge官网首页总榜(仅显示 Top 8) 截图日期:2026.2.2

RoboChallenge是由原力灵机Dexmal与Hugging Face于2025年10月联合推出,是一个基于 API 完成远程真机评测平台。它把模型直接放进真实机器人上反复“开卷考试”:同一任务、同一标准、同一硬件约束下,看看谁的分数更高。

上线三个多月,平台累计执行的真机测试(Rollouts)已突破 4 万次,单日模型提交评测最高达到 181 次(Runs)。在这里,Pi0 / Pi0.5、RDT-1B、CogACT 以及 OpenVLA-OFT 等开源模型已经完成测试并登上榜单。

重要的不是“谁第一”,而是一种过程可追溯,数据可复现,结果可对比的评测方式正在被行业认可。

同时,评测过程中的失败轨迹更像一份行业级“错题集”,更诚实地反映出具身智能当前的能力边界、共性痛点与下一阶段必须补齐的工程缺口。

打开网易新闻 查看精彩图片

报告核心洞察:基础任务与精细操作任务冰火两重天

报告核心洞察:基础任务与精细操作任务冰火两重天

RoboChallenge 平台是一个基于真机的评测平台,涵盖了包括 UR5、Franka、ARX5、ALOHA 等在内的 20 台主流机器人测试集群。平台还开源了 Table30 数据集,为全球开发者提供了丰富的标准化桌面操作任务,支持模型训练、离线评估与结果复现。

Table30任务缩略图
打开网易新闻 查看精彩图片
Table30任务缩略图

Table30 包含 30 个标准化的桌面操作任务,这些任务涵盖了从基本操作到复杂精细控制的各种技能。模型必须完成全部 30 个任务,才能有资格进入 RoboChallenge 的总榜。这个数据集已经在 Hugging Face 平台开源,至今已被下载超过 17K 次,其中近一个月内下载量为 7K 次,展现出其广泛的行业需求和高涨的活跃度。

按机型、构型、能力对Table30任务的分类
打开网易新闻 查看精彩图片
按机型、构型、能力对Table30任务的分类

本次报告主要洞察如下:

1. 真机验证成行业刚需,需求增长显著

RoboChallenge 平台的评测热度在短短三个月内呈现出指数级增长,已经成为检验具身模型能力的重要入口之一。

至今,平台共核发了 209 个提测资格,其中有 82 位开发者完成了本地推理环境搭建并提交了评测,转化率达到 39.2%,这一比例显示了开发者对平台的高度认可和参与度。

同时,RoboChallenge 作为一个国际化的评测平台,吸引了来自美国、新加坡、日本、阿联酋等多个国家的开发者参与其中,体现了其全球性影响力。

活跃用户地域分布
打开网易新闻 查看精彩图片
活跃用户地域分布

2. 基础任务成功率较高,上榜模型能力维度大致趋同

RoboChallenge 首页总榜是按照成功率 (Success Rate) 从高到低排序,同时采用成功率与过程分的双重评价体系。为减小单次运行的偶然性误差,每个模型需针对 Table30 中的每一个任务执行 10 次真机测试(Rollouts)。总榜会对全部 30 个任务的成功率和过程分取平均值。

参测 Top 9 模型在不同任务上的表现
打开网易新闻 查看精彩图片
参测 Top 9 模型在不同任务上的表现

上表完整展示了Top 9 模型对全部 30 个任务的完成得分,可以看出,“叠碗”和“物体移入盒子”两项任务因其相对较高的成功率,成为多数模型首选的验证性任务。

例如,堆碗任务(stack_bowls)中,Spirit-v1.5、pi0.5、pi1.0几个模型的成功率(SR)均达到 100%。

从下图可以看出,TOP模型在能力维度方面大致趋同。simple-pick是目前上榜模型掌握得最好的领域,Manipulation类任务也比较领先。相比之下,Softbody是难点,模型成功率普遍低于 10%;涉及长程记忆的Temporal任务,模型表现普遍低迷。

TOP9模型的九大能力维度表现
打开网易新闻 查看精彩图片
TOP9模型的九大能力维度表现

3. 精细操作任务挑战巨大

随着任务的复杂度提升,尤其是涉及精细操作和长程任务时,成功率迅速下降。

我们也看到,榜首模型在 Table30 上的平均成功率只有 51%。一方面证明了考题(Table30 任务集)设计的挑战性,也表明具身智能在通用能力上仍有巨大提升空间。

同时实测数据显示,参测模型虽具备较强的指令语义理解能力,但在精细操作任务中成功率不足 15%。

打开网易新闻 查看精彩图片

从“错题集”,看当前具身智能的真实难点

从“错题集”,看当前具身智能的真实难点

RoboChallenge 这次年度报告最有价值的部分,在于详细分析了失败率很高的任务背后的共性痛点。

这些失败并非偶然,而是展现了具身智能当前普遍技术瓶颈。数据显示,涉及多步骤操作和精细操控的任务,成功率长期处于低位,部分任务甚至接近 0。通过分析失败率最高的几个任务,报告指出了具身智能当前面临的几大挑战:

1. 初始步骤失败导致“一步错步步错“

做素三明治(make_vegetarian_sandwich)任务,所有上榜的模型成功率均为 0%。

该任务要求严格的操作顺序:首先放置面包,接着加蔬菜、番茄,再放上面包。分析结果显示,大多数模型在第一步(左臂夹取物品)就出现了数量错误或操作失败。一旦初始步骤失败,后续的每个步骤都会因为前面的失误而导致任务彻底失败。

打开网易新闻 查看精彩图片

2. 长程任务的“记忆缺失”与时序崩坏

“给盆栽浇水”(water_potted_plant)任务是另一个常见失败任务,所有上榜模型在这一任务中的成功率也为 0%。

失败的原因归结为时序依赖缺失,即长程任务需要模型维持对历史状态的记忆和对任务流程的连续性把握。然而,模型在执行过程中一旦失去对状态的追踪,就会出现逻辑混乱,产生如“幻觉”般的随机动作,最终导致任务失败。

打开网易新闻 查看精彩图片

3. 视觉精度不足+误差累积

“整理书籍”(sort_books)任务的成功率最高也仅为 10%。失败的原因主要是视觉感知精度不足和误差累积。

该任务要求极高的视觉分割能力,模型必须精准区分紧挨着的书本。然而,在实际操作中,即便是微小的视觉偏差或前一步操作的失败,都可能被放大并影响后续步骤。误差积累使得任务的完成变得更加困难,最终拉低了整体成功率。

这在商业应用中尤为关键:商业交付需要的是连续且高效的操作,而非偶尔的成功或惊艳。在视觉精度和稳定性上的提升,将直接影响具身智能的实际应用前景。

打开网易新闻 查看精彩图片

4. 柔性物体操作难题

在“叠抹布”(fold_dishcloth)任务中,上榜模型的最高成功率仅为 30%。这类任务的主要问题在于物理形变预测难。

柔性物体操作的难题不仅仅是控制问题,它涉及到对物体形变的预判与力学模拟。随着行业发展,柔性物体的操作将成为具身智能应用中亟需突破的瓶颈。

打开网易新闻 查看精彩图片

RoboChallenge 平台将这些问题归纳为两大类瓶颈:

感知理解瓶颈:主要发生在任务的初期阶段,涉及对物体的抓取、识别和操作的准确性。

决策与控制瓶颈:主要发生在任务的中后期,涉及到长程决策、精准控制等。

以上挑战也提醒着我们,具身智能的实际应用需要更稳定、可靠的工程实现,而非单纯依赖于算法的突破。

产业观察:RoboChallenge对行业的影响

产业观察:RoboChallenge对行业的影响

RoboChallenge 通过大规模、标准化、可复现的真机评测,不仅客观揭示了当前具身智能的技术水位,更对行业生态与发展逻辑产生积极影响:

一、评测机制成为行业基础设施,推动合作范式标准化

随着原力灵机与 Hugging Face 联合智源研究院、智元机器人、Qwen 、星海图、自变量、清华大学、西安交通大学、GOSIM 等多家国内外机构成立 RoboChallenge 组委会,该平台正从技术评测工具升级为行业级公共基础设施。其倡导的“开放共同体”模式,旨在建立一套公认的评测标准与流程。

未来,评测成绩将成为技术选型、项目对接与投资评估中的重要客观依据,推动全行业从“演示驱动”转向“真机评测驱动”。

打开网易新闻 查看精彩图片

二、技术发展路径从“炫技”转向“系统工程能力”

RoboChallenge 的“错题集”本质上是为行业指明了未来半年到一年必须补齐的系统能力短板。

行业竞争焦点将逐渐从追求个别任务高分,转向构建可恢复、可维护、可交付的工程体系。谁能系统性地解决长程任务记忆缺失、误差累积与柔性物体操作等“工程硬伤”,谁就更可能实现规模化部署。

三、软硬一体与高质量数据采集依然是战略核心

面对柔性操作、多机型适配、长时序任务等真实场景挑战,单纯依靠模型架构优化已显不足。末端执行器、高精度传感器、仿真‑真机闭环工具链以及规模化高质量行为数据的价值将进一步凸显。

社区已向RoboChallenge平台提出增加机型与适配接口、拓展更多场景维度、建立更严苛的泛化与“盲测”体系等建议,这预示着下一阶段竞争将围绕软硬一体与数据生态展开。

结语

结语

通过可复现可追溯的真机评测和全球开发者的参与,RoboChallenge 为具身智能的发展提供了一个标准化、可复现的测试平台。其不仅展示了当前具身智能模型的能力边界,也为未来的技术进步提供了宝贵的数据和反馈。

随着更多技术和硬件的接入,以及更严格的评测标准的推进,RoboChallenge 有望成为行业不可或缺的基础设施,推动具身智能技术从实验室走向商业化和真实世界应用。

本文为「智能进化论」原创作品。