打开网易新闻 查看精彩图片

智东西

作者 | 程茜

作者 | 漠影

智东西1月12日报道,今日,千寻智能正式开源具身大模型Spirit v1.5,就在前一天,该模型在全球具身智能模型评测平台RoboChallenge上,综合评测斩获第一。

RoboChallenge的基准测试包含30项任务,包括摆放薯条、寻找固定颜色物体、贴胶带等30项任务,Spirit-1.5综合得分为66.09分,成功率达到50.33%,也是唯一一个成功率超过50%的模型。这些任务涵盖了机器人一系列日常技能,考验的正是机器人在陌生环境的泛化能力。

打开网易新闻 查看精彩图片

榜单截图

这一成绩意味着,其超越了已经霸榜RoboChallenge数月之久的Pi0.5模型。Pi0.5由美国机器人创企Physical Intelligence于2025年4月发布,以能让机器人在全新环境中执行复杂家务任务而引起热议。

RoboChallenge榜单由Dexmal原力灵机、Hugging Face全球知名机构联合发起,是全球首个专为具身智能机器人量身打造的大规模真机评测平台,主打让机器人直接在真实物理世界里硬碰硬,检验模型的实战泛化能力。

从Pi0.5霸榜时间之久也可以看出,其在真机实测领域的绝对实力。但值得注意的是,此次Spirit v1.5并不是靠某一项独门绝技胜过Pi0.5,而是实现了综合能力全面超车,这也意味着国产具身智能玩家,正式冲进全球第一梯队的核心圈。

为了证明榜单成绩来自自研模型且真实有效,千寻智能已经同步开源了Spirit v1.5的基模权重、推理代码、使用样例。

核心代码开源地址:

https://github.com/Spirit-AI-Team/spirit-v1.5

模型开源地址:

https://huggingface.co/Spirit-AI-robotics/Spirit-v1.5

技术博客:

https://www.spirit-ai.com/en/blog/spirit-v1-5

一、30大贴近真实场景实操任务,Spirit v1.5多项实操任务完胜Pi0.5

实战见真章,在RoboChallenge的30项任务中,可以看到在下面几项任务,Spirit v1.5和Pi0.5的直观对比。

首先是让机器人往纸箱上贴胶布。Spirit v1.5使得机器人一下子就精准找到了胶布的位置,两只手配合操作成功将胶布贴到了纸箱上,但Pi0.5经过多次尝试,也没能将胶布撕下。

Spirit v1.5模型实测过程(左)、Pi0.5模型实测过程(右)

在摆放物体的任务中,可以看到绿色物体被压在最下方。Pi0.5模型会先将黄色物体放入箱子,待绿色物体露出后再精准拾取;而Spirit v1.5则是直接在堆叠的物品中主动搜寻绿色物体,没有拾取错误颜色的物品。

Spirit v1.5模型实测过程(左)、Pi0.5模型实测过程(右)

插花任务中,Pi0.5不能识别到瓶口,将花插进去,而是横放在了花瓶上,Spirit v1.5能通过移动关节,保证花保持竖直,并被插入花瓶中。

Spirit v1.5模型实测过程(左)、Pi0.5模型实测过程(右)

移动物体时,Spirit v1.5可以精准抓取到物品然后放到箱子里,但Pi0.5在执行任务时,无法判断自己是否已经抓取到相应物品,而是机械操作固定步骤,也不能根据实际场景判断抬升高度,确保物体顺利放入箱内。

Spirit v1.5模型实测过程(左)、Pi0.5模型实测过程(右)

不难看出,贴胶布、物品拾取、插花、移动物体这类贴近实际应用场景的机器人实操任务,是实打实检验技术落地能力的关键。

其既可以验证机器人在真实环境中的感知、抓取、协同操作等核心功能的实际表现,也能直观暴露技术短板,为后续技术迭代、优化产品落地方案提供可落地、可复刻的真实测试依据,更对机器人技术落地及技术有效性有重要意义。

这也恰恰印证了该榜单的核心参考意义。

RoboChallenge的来头不小,其于2025年成立,由Dexmal、Hugging Face海内外具身智能领域知名机构联合发起。这一榜单通过真机测试评估模型在物理世界的泛化性,是具身智能领域少数以真实物理任务为核心的评测体系。

其中的30项测试任务正是针对传统机器人测试场景碎片化、标准不统一,测试结果难以开展横向比较的行业痛点,RoboChallenge通过制定统一的任务标准与评估指标,搭建跨模型对照机制,构建起一套开放、公正的具身智能评测体系,形成针对性解决方案。

更为关键的是,这一平台可供全球研究者免费使用,还会公开任务数据与中间结果。

RoboChallenge榜单是具身智能飞速发展、落地加速的同时,行业对标准化评测的迫切需求催生出的硬核成果,也是给全球玩家实力较量搭起的公平擂台,更凸显出国产具身大模型登顶的含金量。

二、Spirit v1.5登顶背后,破解机器人泛化能力的核心密码

要拆解Spirit v1.5高光表现背后的原因,首先需要破解制约机器人泛化能力的核心难题。

此前,各家机器人创企秀机器人技能时,很多机器人已能完成在全新环境叠衣服、清洁厨房等长序列复杂任务,大规模VLA(视觉-语言-动作)模型正逐步展现出真正的物理智能。

但这一亮眼表现背后,却暗藏着关键技术隐患:不少业界顶尖模型在训练阶段,会对数据进行严苛的预处理,虽能降低机器人模仿人类操作的难度,却也大幅限制了其实际的泛化能力。

因此,Spirit v1.5的核心就是,让机器人在预训练时转向使用多样化的、很大程度上不受控的数据,通过从这类贴近现实世界的混乱数据中学习,大幅提升机器人应对真实家庭环境中各类不可预测场景的能力。

千寻智能通过开放式、目标驱动的数据采集,让操作员以某个目标为前提即兴发挥。例如数据采集员的目标是“今天我要用机器人清理厨房台面”、“给假人模特化妆”,但操作员如何规划子任务、任务执行顺序等都完全随机。

通过这种方式构建数据集的优势在于:能实现数据的高度多样性让机器人习得更多物理常识,还具备更强可扩展性。

在多样性层面,依托数据操作员的实际执行过程,其会包含海量的物体交互、轨迹和环境转换,会在短时间的操作中,包含拾取、放置、打开容器、打扫房间、野外导航等互相交织的数据。

这样一来,机器人就不是机械学习某个单项任务的执行,而是通过学习整套技能及执行的前后顺序,得到更具通用性的知识与能力。

在可扩展性层面,其数据集不需要为每个场景精心设备并定义详细任务指导,便能在不线性增加管理成本的前提下,高效扩展数据采集规模。根据千寻智能内部实测,采用这种方法,人均有效采集时长增加了200%,并将对算法专家的干预需求削减了60%。

为了用数据说明这种数据集采集范式的有效性,千寻智能建立了两组模型进行对比,一组是在包含30个精选演示任务的数据集上进行预训练,一组在开放式多样化采集的数据集上进行预训练。

这两组模型在全新的、未显式出现在任一预训练集中的任务上进行微调,结果显示,多样化模型达到相同性能所需的迭代次数比基线模型少了40%。

打开网易新闻 查看精彩图片

与此同时,其还发现模型的迁移效率与多样化数据量呈显著正相关:随着数据集规模的持续增长,模型在新任务中的验证误差不断下降,这也印证了模型正高效习得从现实世界的丰富内在多样性中自主学习的能力。

打开网易新闻 查看精彩图片

这样的实验结果证明了,使用高多样性、弱控制数据进行预训练的可行性与有效性,为具身智能模型的研发提供了全新的实践依据。

三、突破传统数据瓶颈,Spirit v1.5定调技术新方向

当下具身智能行业的演进节奏持续加快,从产业端到技术端,国内具身智能正持续在全球舞台展现硬实力。

在刚刚结束的全球最具影响力的科技盛会之一、“年度科技风向标”国际消费电子展CES 2026上,国产人形机器人惊艳亮相、强势出圈,再加上此次Spirit v1.5又登顶权威评测榜单,国内玩家在全球具身智能赛道的话语权与行业影响力稳步提升。

在具身智能走向行业落地的关键阶段,技术路线与创新架构不断推新,从VLA架构到认知-动作一体化架构,从单模态感知到多传感器融合,赛道技术探索百花齐放,而权威榜单的位次更迭,正是行业技术创新螺旋式上升的直观体现。

此次Spirit v1.5的领先,正是其技术优势的集中释放,核心依托于模型在泛化性、稳定性、鲁棒性等核心系统能力上的全面突破。

其创新采用高多样性、弱约束的开放式数据采集范式,让模型突破了传统“干净”数据的瓶颈,使得模型能在全新非结构化场景中灵活应对各类不可预测性。

需要注意的是,大模型领域的榜单更迭频发,但具身智能赛道的位次变化,尤其此次Spirit v1.5登顶权威榜单,绝非单纯的技术参数比拼,更不是短期算法调优的结果,而是对模型全链路技术路线的系统性验证,更是其在泛化能力、工程落地性、场景适配性等核心维度的综合实力体现。

此次,千寻智能Spirit v1.5登顶,证明其不仅已经成为中国具身智能模型最强力量,达到世界级水准,更标志着中国具身模型正式站上全球舞台,与世界顶尖模型同台角逐、比肩竞技。

从更宏观层面来看,综合实力的提升,往往会与吸引顶尖人才、生态合作伙伴等这类长期价值的实现相辅相成。

因此,这一成果不仅能为千寻智能吸引全球顶尖的技术人才,进一步提升其在行业内的技术影响力,更能推动其与产业链上下游的生态合作深化,为技术的快速迭代、机器人本体的产品化落地筑牢基础,也为国内具身智能赛道的技术演进提供了可参考的实践范式,助力国内具身智能产业从技术突破向规模化落地加速迈进。

结语:中国具身智能的进阶之路

我国具身智能产业正处于从技术探索迈向规模化落地关键期,叠加工业基础、供应链集成能力和场景密度的独特优势,以Spirit v1.5为代表的技术突破,正加速具身智能突破技术边界,围绕具身通用大脑的能力探索不断进阶,以技术进化加速具身通用大脑的成熟,最终推动具身智能全面走进千家万户、融入日常生活。

未来随着技术的不断成熟与生态的持续完善,中国具身智能产业不仅能在全球竞争中巩固领先优势,更将开辟全新增长空间。