打开网易新闻 查看精彩图片

作者:吕鑫燚 出品:具身研习社

具身智能大模型的排位发生了关键转移。

近日,具身智能大模型全球首个大规模多任务的真机基准测试平台RoboChallenge榜单发生新变化,千寻智能自研VLA基础模型Spiritv1.5以66.09分,超50%的成功率超越pi0.5,夺得第一。且在RoboChallenge的Table30榜单上均位列第一。

打开网易新闻 查看精彩图片

为了证明榜单成绩来自自研模型且真实有效,Spirit v1.5同步开源了基模权重、推理代码以及使用样例,接受公众检验,也方便社区在Spiritv1.5的基础上创新。

在统一基准线下和pi0.5正面对标,千寻的成绩已经远超于“分数价值”。其不仅标志着具身大模型的驱动下,具身智能机器人在任务操作成功率上取得真实突破,更有力地解决了年初萦绕在产业内的焦虑:具身大脑“国内缺位”的结论,已经成为过去式。

作为具身智能大模型不可忽视的玩家之一,千寻智能的技术迭代与生态布局始终精准发力:从Spiritv1率先突破柔性物体处理难题,攻克复杂长序列任务,实现从叠衣服到办公室整理的场景落地;到Spiritv1.5升级强大跨任务、跨本体泛化能力,适配真实场景的连续任务执行,同时达成操作目标与结果的稳定精确控制;再到通过开源释放技术红利,降低开发者复现与落地门槛,助力产业生态繁荣。

这套“技术突破+开源共享”的组合拳,迅速引发海外知名人士高度关注。英伟达具身智能负责人Jim Fan(范麟熙)主动点赞、Hugging Face官方发文祝贺,多位海外行业大V纷纷转发。

打开网易新闻 查看精彩图片

更为关键的是,千寻智能的模型能力并非是“视频仅供参考”,而是已经过真实场景中的严苛审视,能成为真正的生产力。前不久,宁德时代官宣千寻智能的moz1已经成为生产线一员,在电池生产线上完成相应的工作。

可见,千寻智能在“基础模型”侧的投入,不是在秀“花架子”,而是始终回答外界对于具身智能的灵魂拷问:什么时候才能成为生产力?

而这个答案就藏在千寻智能的蜕变路径中。

打开网易新闻 查看精彩图片

RoboChallenge榜单由Dexmal原力灵机、Hugging Face等全球知名机构联合发起。通过全方位还原真实场景的统一测试,检验模型处理真实工作任务的能力。这有点像马拉松之于本体结构设计的极限测验,RoboChallenge也在一定程度上解决了具身模型难有对比基准线的困境,更直观地让外界感受各家模型的真实应用能力。

RoboChallenge榜单除了总分之外,还有30个桌面操作任务的Table30,通过单臂、双臂的操作表现,多维度考察VLA的实际应用能力。例如长序列复杂任务的完成情况,以及新任务在多构型的迁移效率。

由此可见,这是一个具身模型“拉出来溜溜”的平台,成绩也不是千寻智能的“自说自话”,而是真的在模型能力上超过了最强(过去式)模型Pi0.5。

从桌面插花、清理等任务表现来看,Spirit v1.5都能从容应对精细化操作,也没有出现失误导致的宕机情况。(pi0.5抓取纸盒失败后,不再执行任务,而是转去和纸盒“玩”)

尤其是在桌面清理任务上,该任务的桌面随意摆放着不同尺寸、不同形状、不同材质的极易形变操作物体。透明的塑料瓶、碗碟、乱糟糟的纸巾每一项单独抓取放置都是对模型的较高难度考验,而Spirit v1.5并没有被眼前的阵仗打败,依旧有条不紊地将桌面垃圾分别收纳进垃圾桶或桌面上的整理箱中,还不忘贴心的和人类习惯一样,把小碗叠起来放置。

打开网易新闻 查看精彩图片

Spirit v1.5执行桌面清洁

从双臂协同执行来看,这是目前模型能力难度较高的操作,虽然实验室场景下的固定任务规划(如预设轨迹的组装)容易实现,但真实场景中物体的摆放位置、形状、材质存在不确定性,模型很难泛化出通用的协同策略。此外,连续任务中的子任务衔接(如从“抓取物体” 到“放置物体”的过渡)也容易动作中断或卡顿。

受限于“感知-决策-执行”全链路的高精度协同门槛,双臂协同类任务是评测榜单最难攻克的赛道。在物品整理任务中,Spirit v1.5做到了一边固定透明塑料盒的位置,另一边掀开盖子,再将盒子中的薯条倒进盘子中。(Pi0.5止步于拆盖环节)

打开网易新闻 查看精彩图片

Spirit v1.5执行桌面清洁

最考验极限操作的贴胶带任务中,由于操作空间非常狭小,且对双臂协同和触觉感知反馈要求高,经常出现难以完成的状况。但Spirit v1.5依旧能完成撕胶、贴盒的双机械臂精准配合全流程任务。

透过具体执行任务来看,Spirit v1.5在RoboChallenge榜单上的亮眼表现,标志着具身智能模型已实现从“实验室演示”到“真实场景可用”的关键突破。

其在多任务、多场景下的稳定执行,证明千寻智能的模型技术成果并非依赖“温室环境”的纸面实力,而是具备在办公室整理、仓储分拣、电子组装等多场景落地的潜力。

打开网易新闻 查看精彩图片

Spiritv1.5是已经在多个现实场景中验证过的,千寻智能Spiritv1基础上进化而来的“新面孔”。

其创新性意义在于以“做有用的事”为核心原则,走出一条全新范式。将聚光灯阴影下的“非干净数据”推到台前,摒弃绝大多数入局者保证数据“干净”的原则,杜绝“脚本式”数据采集。(技术博客见文末)

听起来很抽象,但却是一个值得深思的范式。

首先,千寻智能认为“干净数据是打造卓越具身基础模型的敌人”。诚然,将绝对干净、任务流程操作、客观环境、操作物体摆放位置都十分完美的数据拿来训练模型,是模型操作能力稳定性的前置因素。但真实世界的魅力和难点正在于一切都不可预设,无论是光线还是操作物体都存在巨大不可控因。

例如,干净数据天然受制于多样性和可扩展性。高度标准化的数据采集模式下,根据脚本走的数据采集员只能遵循既定指令。通过一个具象化案例可更直观的感受到,在“擦桌子”任务中,这类数据集只会机械收录标准化的擦桌动作与桌面场景,与桌面关联任务完全割裂,最终形成的是一个个彼此孤立的经验孤岛,而非能够映射真实生活的连续经验流形。自然无法捕捉现实场景的丰富性与复杂性。从可扩展性瓶颈来看,每一个新场景、新任务的数据集构建,都需要工程师团队从零开始设计任务流程、撰写详尽的采集指南,还要投入大量精力进行数据筛选与质量校验。

可见,吃惯了“细糠数据”的模型,难免在真实世界中出现“有心无力”的操作。

这正是Spiritv1.5突破的关键点,其选择充满随机因素的数据训练,在数据采集阶段就开始规避指令式操作,在目标任务之下,由数据采集员自行决定子任务的流程。其带来的结果是机器人体验现实生活中的一天,而不是高度脚本化的演示片段。

于是,这便不仅是单一动作的重复,而是记录了技能的连续流,机器人不再是孤立地学习如何执行特定动作,而是学习整套技能及其连接方式,使模型知识更加通用。(有点像会认字和会写作文的区别)此外多样化数据采集让提高了数据采集员的参与度,有效提升了效率。数据显示,人均有效采集时长增加了200%,并将对算法专家的干预需求削减了60%。

从结果来看,使用多样化采集训练的模型(B组)在微调阶段的表现优于演示驱动采集(A组)的模型;多样化模型达到相同性能所需的迭代次数比基线模型少了40%。

打开网易新闻 查看精彩图片

多样化的数据采集还带来了Scaling的涌现,除了比较数据类型外,千寻智能还研究了当扩大多样化经验的规模时模型的反应。结果显示迁移效率随多样化数据量的增加呈正相关。随着数据集的增长,模型在新任务上的验证误差持续下降。

打开网易新闻 查看精彩图片

总结来说,模型实际工作的结果表明,任务多样性比单任务的演示数量更为关键。

毕竟,多样化的数据喂养出来的模型,不再是动作而是通用策略,可以用更少的步骤适应新任务。这是一种范式转变,也让我们看到了具身智能成为生产力的充分必要条件,或许不仅仅是技术本身的突破,还有研发团队的思考转移。

打开网易新闻 查看精彩图片

模型侧推陈出新是千寻智能企业顶层设计的外显。

透过千寻智能在模型侧的进展可见,其似乎有意再走一条深度挖掘模型能力价值的发展道路。

打开网易新闻 查看精彩图片

看起来和千寻智能最开始提出的“全栈自研”有些偏颇,硬件能力好像被模型的光环掩盖。

但实际上,具身智能的本质是AI驱动,硬件服务于软件模型。通过产业本质来看,千寻智能的今天并非是软硬“二选一”,而是选择一种更聪明的方式,从结果导向倒推资源配置。

毕竟真正落地要的是聪明。

而这条路线也将成为千寻智能完成愿景的重要路径:十年内让10%的人拥有自己的机器人。

时至今日,这句愿景仍高频出现在千寻智能官方公众号、产业交流论坛、媒体采访等对外发声中。千寻智能从未因行业周期波动或技术攻坚难度而动摇。这份对未来的笃定,看似是对具身智能产业发展的乐观预判,实则并非单纯的行业乐观,而是植根于团队底层基因与“非经验主义”发展路径的必然结论。

这份“非经验主义”的内核为,千寻智能并没有单纯套用以往的“成功经验”。其创始人兼CEO韩峰涛曾为珞石机器人联合创始人&CTO,曾带领团队成功交付数十款型号产品超20000台,具备极强的产品工程化能力,也是具身智能产业中为数不多迈过量产关经验的领先者。

按照韩峰涛的履历,千寻智能应该会比现在走得步子更急。但千寻智能并没有盲目扩大规模,而是深入场景腹地,啃下最难的骨头,把机器人送上了宁德时代的生产线。

千寻智能联合创始人高阳也具备极强的模型能力,但其也并没有躺在“功劳簿”上,而是持续创新。

简单来说,千寻智能是遵从具身智能产业本身的发展逻辑行事,其每一步都非常扎实。不被过往经验束缚,不被浮躁裹挟,以模型为核心引擎,以硬件为落地载体,以真实场景为试金石,在工业级应用中打磨技术,在评测中验证实力,让模型能力有用武之地,也让硬件价值得到精准释放,最终形成“模型引领方向、硬件支撑落地”的正向循环。

而这,正是千寻智能能够在激烈的行业竞争中脱颖而出,并且有底气朝着“让10%的人拥有自己的机器人”愿景稳步迈进的核心原因。用扎实的技术落地,一点点拉近机器人走进大众生活的距离。

技术博客:

https://www.spirit-ai.com/en/blog/spirit-v1-5