人类觉得烧脑的事,机器人往往手到擒来;但那些你我不假思索的日常动作,却能让顶尖AI当场死机。
AlphaGo碾压李世石不费吹灰之力,可要是把它塞进机器人身体里,可能连一只猫都抱不住。大模型能解奥数压轴题,却没法指挥机械手稳稳捏起一支笔——这种认知错位,就是著名的莫拉维克悖论。
前Google机器人专家Benjie Holson对此深有体会。他对市面上那些"人形机器人大赛"越看越失望,索性用自己的名字办了场Benjie's Olympics:没有红毯、没有颁奖礼,只有15道家务题——抹花生酱、洗油腻平底锅、插钥匙开锁、把袜子翻过来。
参赛团队磨了6个月的Demo,上场3天失败率飙到90%。这不是演习,是闭卷裸考:全自主、无遥控、真实家庭场景、物体随机摆、不能贴标记。唯一不确定的规则是"手臂能不能固定在桌上",Holson把投票权交给网友,结果一边倒——只许移动的机器人参赛。
在这群"移动靶"里,一家中国公司杀了出来。
星动纪元拿下三项全球第一,其中两项是金牌难度:剥橘子、开锁。另一项翻袜子是银牌。三项成绩全面压过美国明星公司Physical Intelligence——后者是业内公认的顶流,此前参赛多是别人拉着它的开源模型去跑,这次Benjie's Olympics是它唯一主动报名的比赛,用的还是闭源模型,代表最高水平。
星动纪元是目前榜单上唯一的中国企业,也是唯一击败PI闭源模型的玩家。
《科学美国人》给这场赛事定了性:"Demos die here, useful robots are born."(Demo在此暴毙,实用机器人在此诞生。)
核心规则只有一条:强制泛化,不准复现。机器人必须在陌生环境里自己想办法,不能靠预扫描地图死记硬背。PI团队拿金牌后说过:"每个任务都瞄准具身智能最难的未解问题——柔性物体、高接触操作、长时序自主。没有其他比赛能比肩。"
15道题分5个Event,每Event下设金银铜牌。比如洗衣:T恤翻面折叠是铜牌,翻袜子是银牌,挂男士衬衫是金牌。指尖考验更细:卷袜子铜牌,捡狗粪银牌,剥橘子金牌。
剥橘子这题,人类随手就来,机器人却得同时搞定视觉分割、形变跟踪、力度控制。PI此前用削皮刀辅助,2分46秒完成;星动纪元纯手剥,1分47秒,快了35%。
开锁是毫米级手术:钥匙孔微小、金属反光、视角多变,PI用了66秒,星动纪元49秒,提升25%。
翻袜子则是柔性物体的噩梦——形变无规律、内外难区分、样本效率敏感。PI用了176组样本,1分33秒;星动纪元120组样本,少用32%,速度还快了30%。
背后是自研的VLA具身大模型。星动纪元的打法可以概括为:先教"水果"再认"苹果",而不是硬背一万张苹果照片。基础模型的知识迁移,让机器人在新场景里学得快、耗得少。
更关键的是"动态视觉注意力机制"——名字唬人,原理直白:摄像头跟着身体动,靠近目标时角度、距离全在变,传统方法容易"看花眼"。这套机制让机器人自动锁定钥匙孔、果皮边缘这类细节,环境再乱也能盯死。
传统模型是"做完一步想一步",单次规划超1秒,等它反应过来,变形的袜子早滑走了。星动纪元用异步高频推理:身体执行当前动作时,大脑已经在算下一步、下下一步,新路径一出立刻切换,不卡壳、不等待。
移动底盘带来的抖动和视角变化,反而成了护城河——别人头疼的动态不确定性,被它吃成了技术壁垒。
星动纪元创始人陈建宇,28岁成为清华博导,2023年创办公司。2024年9月,它成为全球首个提出分频VLA的团队,PI、Figure、Google、NVIDIA排在后面。同年12月,融合世界模型的VLA算法框架Video Prediction Policy开源。
今年,自研的ERA-42端到端模型实现了全尺寸双足人形机器人全身及五指灵巧手的精准控制,全球只有四家公司做到。
物流、制造、商业服务、家庭场景,星动纪元已经在真干活。中关村论坛亮相的智能分拣机器人,能搞定药品、包裹分拣,也能完成零部件抓取、高精度装配、质量检测。部分场景效率已达70%-80%。
Benjie's Olympics的标语是"让Demo死,让有用的机器人生"。星动纪元拿了三块奖牌后,这件事看起来没那么远了。
热门跟贴