热热闹闹了一整年,机器人在真实场景中干活的水平怎么样了?
昨天,具身智能领域传来的一则消息,或许能为我们带来一个更为清晰的信号。
1月12日,千寻智能宣布开源自研的VLA(视觉-语言-动作)基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中一举登顶,超越美国具身智能明星公司Physical Intelligence的Pi0.5。
在过去的2025年里,千寻智能旗下人形机器人Moz1频繁活跃在北上广深杭的各大展会上,叠衣服、串奶皮子糖葫芦、搭积木、卖饮料、端盘子……而就在上个月下旬,它们的小伙伴“小墨”,正式成为宁德时代中州基地的“员工”,在生产线上开展实际工作。
全球榜单中
唯一成功率破50%的模型
Spirit v1.5是什么?
Spirit v1.5是千寻智能自主研发并开源的VLA基础模型,将视觉感知、语言理解与动作生成整合在同一决策流程中,减少多模块串联带来的信息损耗,并提升长程任务中的整体稳定性。
RoboChallenge又是什么?
它是一个面向真实机器人执行场景的标准化评测基准,由Dexmal(原力灵机)、Hugging Face(抱抱脸)等全球知名机构联合发起,聚焦具身智能模型的跨平台能力验证。
这个平台强调真实机器人执行能力,评测维度涵盖复杂指令理解、多步骤操作、跨场景稳定性等,被业界视为当前具身智能领域最接近真实落地场景的基准测试之一。
具体测些什么?
本次测试包括30项操作任务(Table 30),像是插花、挂牙刷杯、寻找指定颜色的物体、贴胶条、将笔放入笔盒等。
在这些操作任务的测试中,Spirit v1.5综合得分为66.09分,成功率达到50.33%,是唯一一个成功率超过50%的模型。
此前数月,在这份榜单上霸榜的是Pi0.5模型。它由Physical Intelligence于2025年4月发布,曾因能让机器人在全新环境中完成复杂家务而引发网友热议。
此次登顶,也意味着国产具身智能企业,正式跻身全球核心第一梯队。
为了证实榜单成绩源于自研模型且真实可信,千寻智能已同步开源Spirit v1.5的基模权重、推理代码和使用样例,并表示接受公众与研究社区的独立检验。
成功率100%的是叠碗
从榜单能不能看出机器人现在能做些什么?
先来看一些具体任务中的对比表现:
插花任务:Pi05夹起一枝花,但没能插进花瓶,而是横放在了瓶口;Spirit v1.5通过灵活调整关节,保证花枝竖直,并被插入花瓶中。
Pi05
Spirit v1.5
清理碗碟:Spirit v1.5可以准确夹起碗放入透明收纳箱,同时将废纸巾扔进前方绿桶;Pi0.5虽也能完成放碗动作,但偶尔会出现“机械式执行”——无法判断是否已抓取物品,仅按固定步骤操作。
Pi05
Spirit v1.5
寻找绿盒:Spirit v1.5能从彩色方块中锁定绿色目标,准确夹取(该项任务成功率高达90%,在所有参与测试的模型中位列第一);Pi05错选了其中一个黄色方块。
Pi05
Spirit v1.5
贴胶带:Spirit v1.5可协调双臂撕下一段胶带,贴于快递盒上;Pi0.5则未能成功撕下胶带,仅做出一个贴附的“假动作”。贴胶带属于典型的闭环触觉接触任务,对机械臂协同与触觉感知要求极高,常会出现“空抓”现象。
Pi0.5
Spirit v1.5
根据RoboChallenge官网公布的成绩,在“叠碗”(将三只小碗叠放)任务中,Spirit v1.5获得98分,成功率100%;将钢笔放入笔盒、鞋子摆上架子、杯子放置杯垫等任务,成功率也都达到了90%。
为何要参与此类测试?
看完上面这些任务的内容,大抵就明白了。它们大多模拟人类日常生活中的常见操作,既能检验机器人在真实环境中的感知、抓取与协同操作能力,又能直观暴露技术短板,为后续产品优化与技术迭代提供真实、可复现的测试依据,因此对推动机器人技术落地具有重要意义。
拥抱多样化甚至是“混乱”的数据
“未来10年,这个世界上10%的人可以拥有自己的机器人。”在此前专访中,千寻智能创始人兼CEO韩峰涛这样告诉九千光年。
(新闻回顾☞)
这位浙大背景的80后,与清华背景的高阳(联合创始人兼首席科学家、“伯克利归国四子之一”)携手,于2024年初创办千寻智能。
韩峰涛和高阳
团队自起步便坚定走端到端的“视觉-语言-动作”(VLA)全自研路线。在他们看来,数据质量决定模型上限,而当前VLA大模型的训练关键和挑战,恰恰在于数据多样性。
千寻智能在昨日发布的技术博客中,这样写道:“许多业界顶尖的模型主要在高度精选的,即所谓的‘干净’数据集上进行训练。”“虽然这种‘干净’的路径提供了一个稳定的起点,但它限制了机器人的泛化能力。如果机器人只在一切都清晰可见且触手可及的世界中学习,那么当它在开放世界中面对不可预测性时,很可能会失败。”
因此,千寻智能选择在预训练阶段引入大量多样化、很大程度上不受控的真实数据。数据采集不再严格限定任务脚本,而是以“完成有意义目标”为导向,允许操作过程中自然串联多个子任务与原子技能。“如果我们希望机器人能应对人类家庭环境中的不可预测性,它们就需要从像真实世界一样混乱的数据中学习。”
就在2025年12月下旬,全球首条实现人形具身智能机器人规模化落地的新能源动力电池PACK生产线,在宁德时代中州基地正式投入运行。千寻智能研发的人形机器人“小墨”搭载宁德时代自研电池,已能精准完成电池接插件插接等复杂作业。
附:
技术博客:
https://www.spirit-ai.com/en/blog/spirit-v1-5
RoboChallenge榜单地址:
https://robochallenge.cn/home
文 | 童蔚
VIEW MORE
@纽约时报这篇报道,让美国网友破防了>>
@当AI眼镜陷作弊疑云>>
@他用20年时间打破腔镜手术机器人的进口垄断>>
热门跟贴