机器之心编辑部
长期以来,我们已经习惯了机器人行业中那些令人眼花缭乱的视频 Demo:在经过千挑万选的背景下,智能体完成着精准又漂亮的动作。
然而,现实很残酷。
如果把机器人扔进真实、杂乱且多变的环境中,它们往往会立刻「原形毕露」,频频大翻车。
机器人:抓不到,就是抓不到。
机器人:炒菜,我是外行。
这些看似简单的任务(例如抓取物体、炒菜),虽对人类来说轻而易举,但对于机器人却是充满了不可预见的挑战。
当人们在精美 Demo 与笨拙现实的落差中感到无奈时,一家专注于具身智能及通用人形机器人研发的中国公司,在目前全球最硬核的实战赛场上,交出了一份极具说服力的答卷。
近日,凭借自研 VLA 具身智能模型,星动纪元一举斩获了具身界灵巧操作奥林匹克 Benjie's Humanoid Olympic Games(简称 Benjie's Olympics)三项任务的全球第一。
星动纪元在 Benjie’s Olympics 大赛中斩获的奖牌
Benjie’s Olympics 公布的最新成绩显示,星动纪元在翻袜子(银牌难度任务)中成绩位列全球第一,并在开锁、剥橘子两项金牌难度任务中同时登顶,三项核心任务全面刷新世界纪录。
Benjie's Olympics 公布星动纪元两项金牌难度任务(开锁、剥橘子)第一。
Benjie's Olympics 公布星动纪元银牌难度任务(翻袜子)第一。
要真正理解这三项第一的分量,必须先搞清楚一件事:星动纪元击败的,不是一个普通对手。
他们击败的是整个行业公认的技术领先者 Physical Intelligence(简称:PI),PI 拿出了从未公开过的闭源模型 π*0.6。
结果,全败。
星动纪元也因此成为该赛事迄今为止唯一上榜的中国企业。
要知道,在全球具身智能领域,PI 的成绩大多来自第三方机构调用其开源模型跑出的结果,但这并非 PI 的真实战力。
Benjie's Olympics 是个例外。这是目前全球唯一一个 PI 官方主动下场、亲自参赛并公开打榜的赛事。PI 为此派出的是从未对外开放的核心闭源模型 π*0.6,可以说是真正意义上的全力出击。
而星动纪元,正是在这个擂台上,三项全部拿下第一。
毫不夸张的说,这是具身智能行业有史以来,第一次有机构在全力对阵 PI 闭源模型的条件下,实现全面超越。在此之前,没有任何一家企业做到过这件事。
硬核机器人比赛,让 Demo 玩家出局
要理解星动纪元这几项第一的含金量,我们必须先了解一下 Benjie's Olympics 是一个怎样硬核的存在。
如果你在机器人行业待过一段时间,就会发现一个心照不宣的秘密:大多数发布会上的 Demo,是精心设计的表演,而非真实能力的呈现。
Benjie's Olympics 的存在,就是为了终结这种表演文化。
该赛事由前谷歌资深机器人专家 Benjie Holson 发起。创立初衷只有一个,就是为了撕下机器人行业的包装,把评判体系从炫技表演拉回到实用落地的层面上来
正因如此,它在业内迅速赢得了一个非官方的称号:机器人行业的压力测试。那些花里胡哨的 demo 炫技在这场比赛中将无所遁形。
这场比赛的含金量,不仅体现在赛制本身,更体现在参赛阵容上。赛事汇聚了 PI、Sunday Robotics 等全球顶尖具身智能公司。前面我们也已提到,这也是 PI 唯一主动参与的赛事,他们为此专门出动了其闭源旗舰模型 π*0.6,代表了 PI 大脑能力的最高水准,而非任何保留实力的参赛版本。
换句话说,这场比赛的成绩单,直接反映了当前具身智能领域的全球最高水平。能在这个擂台上拿第一,意味着什么,不言而喻。
赛事共设有15 项实战挑战,按照难度分为金牌、银牌和铜牌难度任务,开锁和剥橘子属于金牌难度任务,而翻袜子则属于银牌难度任务。在这些任务中,任何微小的差错(1–3mm)都可能导致任务失败,极考验机器人的精准度和稳定性。
对于金牌难度任务,行业内公认几乎无法达标,对于银牌难度任务,看似日常,实则对柔性物体操控能力要求极高。星动纪元正是在大家公认不可能全部完成的任务上,全部拿到第一。
规则层面的苛刻程度同样超出常规赛事:全面考验机器人的自主能力和适应能力。要求全自主、零人工干预、无仿真。一旦任务开始,禁止任何形式的遥控、人工介入或远程修正,机器人必须在真实场景中完全自主完成任务。环境和物体随机摆放,禁止使用标记或预扫描地图,确保每个任务都在全新的、不可预知的条件下进行。
这意味着,参赛选手不能靠背题,只能靠真本事。
正如 Physical Intelligence 团队所评价的:「每个任务都瞄准具身智能最难的未解问题,柔性物体、高接触操作、长时序自主。没有其他比赛能比肩。」
业内专家的共识则更加直白:这是唯一强制泛化而非复现的比赛。多数队伍连铜牌都过不了;金牌,近乎奇迹。
对于这种规格的比赛,选手们也是大倒苦水:「我们花了 6 个月做 Demo;在 Benjie 任务上 3 天 90% 失败。真实世界真是毫不留情。」看完这个评论,真是觉得好笑又心酸。
行业因此形成了一个新的评判标准:能过 Benjie 关,才叫工业级全栈;过不了,都是 Demo。
正是在这样的背景下,星动纪元在开锁、剥橘子、翻袜子三项任务中全部斩获第一。
但这三项成绩的意义,不能用普通比赛的逻辑来理解。
以剥橘子为例,单是这一项任务,就要求机器人同时具备:3D 视觉与触觉的实时融合、LLM 任务规划与运动控制的协同调度、物理常识推理(重力、摩擦、形变预判),以及误差自修正能力(如物体跌落后的恢复策略)。任何一个环节的短板,都会导致全盘失败。
这不是某一项技术的领先,而是全栈能力在极端压力下的整体验证。
在一个金牌近乎奇迹的比赛中,拿下三项第一,这就是星动纪元交出的答卷。
击败 PI,星动纪元三大核心任务夺冠
Benjie's Olympics 在成绩公告中宣布,星动纪元在剥橘子、开锁和翻袜子三大核心任务中,均以显著的优势超越了前纪录保持者 PI。
PI 曾是该赛事中首个拿下多个金牌难度任务的顶尖团队。然而,星动纪元此次交出的成绩单,不仅是执行时间的全面缩短,更是在操作方式和模型泛化能力上展现出了独特优势。
剥橘子(金牌难度任务):首个实现纯手剥,速度比 PI 飙升 35%
剥橘子这类任务,对人类来说非常轻松,但对机器人而言,却是典型的高难度操作。一不小心就会把橘子捏碎,果肉撕裂,导致操作失败。
更困难的是,这一过程往往需要双机械臂的协同配合:一只机械手需要稳定固定橘子,控制整体受力,另一只手则需要沿着果皮边缘进行精细剥离。在剥离过程中,力的大小、方向以及接触位置都需要不断动态调整,一旦两只手之间的配合出现偏差,就容易造成挤压或撕裂。
与此同时,橘子在操作过程中还会持续发生形变,机器人需要实时感知果皮与果肉之间的微小变化,并据此调整动作策略。这使得剥橘子不仅是一个简单的操作任务,而是对视觉感知、力控制、双臂协同以及实时决策能力的综合考验。
面对这一极其复杂的柔性操作,前纪录保持者 PI 借助削皮刀等外部工具,最终用时 2 分 46 秒完成。而星动纪元则直接打破了工具的依赖,成为该赛事首个实现完全无工具、纯手剥操作的团队。他们仅用时 1 分 47 秒就完成了纯手剥任务,速度比 PI 快了足足 35%。
开锁(金牌难度任务):克服重重视觉干扰,速度比 PI 提升 25%
人类开锁往往可以依靠手部的触觉反馈,但机器人的高精度操作极度依赖视觉前置引导。钥匙开锁作为典型的精细任务容错率几乎为零,金属表面的高光反光还会在机器人的视觉传感器中形成噪点干扰。这就要求 AI 模型不仅要能在一片反光中「抠出」锁孔位置,还要精准解算出钥匙的三维姿态。
在这项穿针引线的任务中,PI 的完成时间为 66 秒。星动纪元则展现出了更强的高接触操作能力,仅用时 49 秒便顺利开锁,将整体操作速度提升了 25%。
翻袜子(银牌难度任务):训练样本比 PI 少 32%,执行速度快 30%
在机器人控制任务中,抓取硬质零件通常依靠的是三维坐标体系,但这套逻辑在「翻袜子」面前会瞬间失效。作为一个柔性物体操作场景,它的核心难点在于无规律形变。在翻转的每一帧,袜子的物理形态都在发生改变。机器人必须实时跟踪动态形变,精准区分出袜子的内外侧和开口位置。这意味着模型必须真正理解眼前的这团布料,具备物理规律常识,而不是背诵动作指令。
为了完成这项任务,PI 动用了 176 个样本,耗时 1 分 33 秒。而星动纪元则展现出了极其惊人的小样本学习能力:他们仅使用了 120 个样本(比 PI 大幅减少了 31.8%),不仅成功完成任务,耗时更是缩短至 1 分 04 秒,速度比 PI 提升了 30%。
星动纪元的超越不止是单纯的更快,而是其模型在应对复杂任务时展现出的具体优势:纯手剥橘子不依赖外部工具,证明了模型对柔性物体形变的理解;开锁任务的流畅执行,展现了高精度感知与动作的稳定协同;而用更少的训练样本完成翻袜子,则证明了其更高效的数据利用率与泛化能力。
这三项任务的综合表现,验证了这套自研具身大脑在真实场景下的技术优越性。
星动纪元 VLA 模型, 凭什么在具身智能顶级博弈中胜出?
在具身智能的演进路径中,VLA(Vision-Language-Action)模型已成为主流范式。其核心愿景在于打破视觉感知、语言理解与动作控制之间的壁垒,实现三者的深度表征融合。
尽管 VLA 提供了统一的架构,但在实际应用中,智能体仍难以应对如「翻袜子」、「开锁」等精细化操作。这类任务的难点不在于简单的指令执行,而在于以下三重能力的复合要求:
- 高效的知识迁移能力:从海量预训练数据中提取通用规律,而非对每个任务从零学起。
- 动态自适应感知:在物体形变(如柔性织物)或环境干扰下保持感知稳定。
- 实时决策闭环:根据动作反馈即时修正轨迹,确保操作精度。
针对上述痛点,星动纪元 VLA 模型通过底层架构优化,在数据利用、感知精度和控制响应等关键环节上实现了显著突破。
首先是极高的样本效率,在具身智能研究中,数据往往是最稀缺的资源。尤其是在涉及柔性物体操作的场景中,采集和标注高质量数据成本极高,这也使得模型对数据规模的依赖成为长期瓶颈。
在翻袜子任务上,星动纪元仅使用 120 组训练样本,就达到甚至超过了 PI 使用 176 组样本的表现,样本量减少约 32%。这就好比别人背 1000 个单词才能考过,它背 700 个就够了。
其背后的关键在于基础模型的知识迁移能力。通过在大规模预训练阶段学习到的通用视觉与动作规律,模型能够将这些已有经验迁移到具体任务中,从而在少量样本条件下快速适应新场景。这种能力,使得模型不再完全依赖针对单一任务的大规模数据堆叠,而是具备了一定程度的跨任务泛化能力。
这种泛化能力在实际应用中非常关键,在现实场景中,很多任务都不具备充足的数据支持。如果模型需要依赖大量样本才能发挥性能,那么其落地成本将极高;而一旦模型具备小样本泛化能力,具身智能才能更好的在现实场景中落地。
其次是自适应视觉注意力机制,在具身智能任务中,感知能力往往是最容易被低估、却最决定成败的一环。尤其是在开锁这类精细操作中,钥匙孔往往只有毫米级大小,同时还伴随着光照变化、金属反光、视角偏差等多重干扰,这些因素都会显著影响视觉识别的稳定性。一旦感知出现偏差,后续的动作执行几乎必然失败。
在这一点上,星动纪元引入了自适应视觉注意力机制,使模型能够在复杂环境中动态聚焦关键区域,对钥匙、锁孔等微小目标进行特征增强。模型不再是平均地看所有信息,而是能够在关键时刻把注意力集中在最重要的细节上。
其直接结果是在高干扰环境下模型依然能够保持稳定的目标识别与对齐能力,为毫米级精度的操作提供可靠的感知基础。这类能力,决定了机器人能否从看得见迈向看得准,也是其在开锁任务中实现更快、更稳定执行的关键因素之一。
最后是异步高频推理与短时域规划。在具身智能任务中,机器人的反应速度往往直接决定任务能否成功。然而,现实环境处于动态变化之中:物体的位置会发生偏移、形态会发生改变,一旦动作执行与环境状态脱节,误差就会快速累积,最终导致任务失败。
但在传统 VLA 模型中,控制策略通常以固定频率生成一段较长的运动轨迹(往往超过 1 秒)。在这段轨迹执行过程中,模型无法根据环境变化进行及时调整,这意味着一旦出现偏差,只能等到下一次规划时再修正,导致反应滞后。
针对这一问题,星动纪元引入了异步推理与短时域规划机制:在当前轨迹尚未执行完成时,就同步预测下一段轨迹,一旦新轨迹生成,系统便立即切换执行。这样一来,模型的决策频率被显著提升。
机器人的某个关节先沿着第一段轨迹(Chunk 1)运动,当到达第二段轨迹(Chunk 2)出现的时刻(图中的竖线位置)时,便切换为沿第二段轨迹继续运动;随后再在第三段轨迹(Chunk 3)出现时进行切换,如此循环。来源:https://generalrobots.substack.com/p/robotera-snatches-silver-in-sock
这样一来,机器人能够以更高频率持续修正动作,对突发扰动(如袜子形态变化)做出更及时响应,从而有效抑制误差累积,显著提升任务的成功率与整体稳定性。
也正是在上述模型能力的支撑下,星动纪元的 VLA 具身模型在柔性物体操作、双手协作、工具使用以及长程复杂任务等关键能力上实现了同步提升。
这些能力单拎出来都不罕见,难的是在一套模型里同时跑通、同时稳定。这也是为什么 Benjie's Olympics 任务极具挑战,而星动纪元却能连拿三项第一的原因。
能在这样的赛场上三项登顶,宣告了星动纪元在解决具身智能核心难题上,已经摸索出了一套比国际顶尖同行更有效的方法论。
星动纪元凭技术创新,引领具身大脑全球研究范式
其实,星动纪元早已在全球具身智能的研究范式上确立了引领地位。
今年 2 月,星动纪元创始人陈建宇团队与斯坦福大学 Chelsea Finn 团队(她正是前纪录保持者 PI 的创始人)联合发布了 Ctrl-World 可控生成世界模型。
该模型在世界模型权威评测 World Arena 榜单上一举击败谷歌、英伟达等顶尖模型,在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上全部登顶,拿下了具身任务能力全球第一。
在具身模型技术引领上,星动纪元更是屡次创下行业第一:
- 他们是全球首个提出分频 VLA 架构的团队(2024 年 9 月推出 HiRT 快慢分层架构),早于 PI、Figure、谷歌、英伟达等巨头和明星公司。
- 他们打造了全球首个融合世界模型的具身大脑。2024 年 12 月,星动纪元发布融合世界模型的 VLA 算法框架 VPP(Video Prediction Policy,现已开源),将具身智能的可用数据扩展到了海量互联网视频数据,机器人可以实现边想边做。
- 其研发的 ERA-42 模型,是全球仅有的四个实现了全尺寸人形机器人全身及五指灵巧手精准控制的标杆之一(其余三家为 Figure Helix、特斯拉 Grok 及英伟达 GR00T)。
目前,星动纪元的具身大脑 ERA-42 已真正在物流(分拣及扫码)、制造(零部件抓取、高精度装配、质量检测)以及商业服务等真实场景中落地,部分场景中的效率已经达到了 70%~80%。
星动纪元真干活机器人成为中关村论坛关注焦点。
长久以来,具身智能技术的话语权和最惊艳的 demo 往往掌握在硅谷巨头手中。但星动纪元一次又一次地用实战结果证明,机器人技术比拼的不是 demo,而是谁的底层架构更扎实、谁在真实环境的泛化能力更强。
在这个决定产业未来的战场上,国内公司正在引领前沿风向。
热门跟贴