打开网易新闻 查看精彩图片

作者:吕鑫燚

出品:具身研习社

人人都在谈具身智能困局,但鲜少有人能说清困局的明路怎么走。

回溯2025年,具身智能最大的困局在“不落地”,这里的不落地并不是指商业转化,而是技术难以“工程化”落地。这一点在具身模型上尤为尖锐,2025年具身模型处于“各自为战”的无序竞争状态,产业界对具身模型的认知,多依赖企业披露的Demo演示。

但彼时这些演示背后有个冷知识,具身模型最炙手可热的攻克技术难关“长序列复杂任务处理”能力,尚未有明确界定的评判标准。多位业内技术人士对具身研习表示,“长序列”的任务步骤、“复杂”的维度均无统一认知。某学术界人物表示:“具身智能模型在长序列和复杂两个指标上,尚未形成行业公认的能力评估框架。”

模型标准缺失并不是简单的分不出来排名,而是衍生出对内对外两方面的桎梏。

对内指的是对于企业自身发展,没有评判标准企业难以对训练模型的数据质量建立清晰认知。也无法简单感知模型在多场景的适应能力。

对外从产业向来看,其一,模型真实能力难以横向对比,下游应用企业选型困难,阻碍规模化落地;其二,技术迭代缺乏统一标尺,企业更多精力在“Demo内卷”,而非可量化的工程化成果。

这也直接导致外界对具身智能“泡沫”的质疑声四起。

因此产业亟需的是“有序发展”,比起技术收敛更应该先来的是“评测收敛”,而这也是破解困局的最优解。近日,上海交通大学联合多个单位发布了“用于评估具身智能机器人的100项细节导向型任务”,通过多个指标全方位评判模型标准,为具身模型可落地树立起参考坐标系。

其中,蚂蚁LingBot-VLA在统一真机评测基准下整体表现超越Pi0.5。在综合基准测试中的系统性评估表明,LingBot-VLA实现了先进的性能和出色的泛化能力。

在一个客观真实的评测中,当LingBot-VLA领先PI半个身位时,其不仅标志着具身智能模型的长效发展关键在于模型能力的持续探索,更在于产业内有一条规范化可落地的发展路线。由此可见,标准先行不仅能驱散具身智能“泡沫论”的阴霾,这条清晰路径,更能引领行业走出困局,迈向高质量发展新阶段。

打开网易新闻 查看精彩图片

为什么很长一段时间业内具身模型的评测是空白的?

其关键点在于评测的角色不只是“一套评测工具”,而是基于真实场景、真实操作任务所要求的能力倒推出来的benchmark。例如,现在大语言模型评测工具的价值并非单一的“模型打分”,而是贯穿大模型从研发到落地的全生命周期,为技术团队、产业客户、监管机构提供差异化的评价依据,是大模型产业从“野蛮生长”走向“规范发展”的重要支撑。

从这条逻辑来看,具身智能现有评测方案还相对局限,当前主流机器人学习数据集和任务设计,始终跳不出“抓取并持有”这类常见行为的舒适区,对复杂场景、长尾任务的覆盖严重不足。更关键的是,现在尚未形成统一的评估标准,让不同团队的技术方案难以公平对比,模型在真实环境中的泛化能力也无从精准验证,不仅制约了技术迭代效率,更成为机器人产业化落地的“隐形壁垒”。

为了解决现有局限性,GM-100的核心设计包含100项细节导向型任务,覆盖广泛人机交互和长尾行为,这些任务设计的出发点并非是主观臆断,而是以物理常识和底层操作知识为标准,结合人机交互、物体功能特性,通过Qwen3大语言模型自动生成候选任务,再经专家筛选优化。

打开网易新闻 查看精彩图片

这种任务设计的模式,能有效测试模型的泛化边界,且每一项都精准命中场景对机器人“真实能力”的验证需求。这正是产业界对评测基准的核心诉求:既要“能落地验证”,又要“能区分优劣”。

从评测结果来看,不同于传统评测仅看“任务成功与否”的单一维度,GM-100构建了成功率(SR)、部分成功率(PSR)、动作预测误差(MSE/L1)的三维评估体系,恰好匹配了产业对机器人模型的多层级验证需求:

  • 成功率(SR)直观反映模型完成完整任务的能力,对应产业场景中的“落地效果”;

  • 部分成功率(PSR)针对复杂多步骤任务,拆解子目标完成情况,让企业清晰看到模型的 “短板环节”,为迭代优化提供精准方向;

  • 动作预测误差则穿透表面效果,衡量模型对专家动作的理解与复现能力,是判断模型底层稳定性的关键指标。

GM-100的另一大产业价值,在于其完全开放的生态布局,并搭建了社区驱动的开放评估平台。依赖集体监督和开放证据共享,而非僵化的集中式测试。让评测结果“有依据”,而非“值得推敲”。

更重要的是,GM-100是由上海交通大学主导、多方参与的第三方评测项目,虽然有其他单位主体参与支持,但GM-100完全脱离单一企业的利益绑定,其独立客观的属性恰好填补了行业空白。

由此可见,GM-100这种中立评测能有效减少“自证自夸”的行业乱象,推动技术竞争回归“实力比拼”的本质。

打开网易新闻 查看精彩图片

当GM-100为产业提供了客观且真实的模型展示窗口时,该窗口也成为窥见模型能力的绝佳途径。

在GM-100中,LingBot-VLA在统一真机评测基准下整体表现超越Pi0.5。无论是在复杂长序列任务的执行精度上、还是在面对新任务的适应能力上,一个泛化能力强能胜任精细化操作任务的LingBot-VLA都展现出了更胜一筹的智能水平,也诠释了通用模型底座的模样。

具体而言,LingBot-VLA在3种机器人平台上进行评测,AgileX、Agibot G1和Galaxea R1Pro。均为双臂配置,配备平行夹爪和多相机(2个腕部相机+1个头部相机),捕捉第一人称视角。LingBot-VLA在所有平台上的成功率(SR)和进展分数(PS)均领先。LingBot-Depth和pi0.5相比平均SR提升4.28%,PS提升7.76%。

LingBot-VLA是一种实用的VLA基础模型,其训练数据来自9种机器人平台约20,000小时真实世界操作数据。

从模型架构来看,LingBot-VLA采用混合Transformer(MoT)架构,融合预训练VLM(Qwen2.5VL)与“动作专家”模块,通过共享自注意力实现多模态统一建模。说人话就是,一个负责看懂多视角图片、听懂任务指令的“聪明大脑”;另一个是专门管“动”的“动作专家”,负责生成机器人的操作动作。

图片和指令先让“视觉-语言大脑”解读,机器人自己的状态(比如初始位置、之前做过的动作)交给“动作专家”,俩组件还能共享信息,避免各自为政出问题。再以“流匹配”的方法,让机器人的动作不僵硬、更平滑,不管是复杂任务,还是换不同机器人,都能精准操作。

在训练优化侧,由于动作数据本质上是高频数据,因此建立包含分布式训练和算子优化的高效流水线至关重要。LingBot-VLA选择采用FSDP分布式策略、混合精度训练和算子融合技术,解决了训练瓶颈并提高效率。

从LingBot-VLA的实际表现来看,该模型有非常明显的标签即“精准回应”,直击行业“专用性强、泛化性弱、效率低”的三大难题。

首先,LingBot-VLA是一个通用模型底座,能打破“一机一脑”的硬件壁垒。这份“跨本体”的适应性不仅证明了模型能力的可扩展性、可复用性。更能以模型能力释放研发内耗,研发团队不必在多个本体之间重复完成高成本数据采集和训练。

其次,LingBot-VLA突破单一任务限制。目前很多具身大模型的本质是“小模型”或者“专模型”,一个模型智能满足部分技能,例如只能做简单的抓取&放置,要想完成长序列需要单独训练一个模型。而LingBot-VLA则是面向多任务的“真通用”模型,能同时完成抓取、放置、叠衣服、擦拭桌面等任务。实现了从“单技能适配”到“多任务通用”的关键跨越。

最后,LingBot-VLA突破了数据与算力瓶颈,通过更少的数据量、更低的GPU算力消耗实现更优模型效果。依托于底层代码的深度优化,模型训练周期从原本的3个月大幅压缩至1个月。这不仅直接降低了企业与开发者的算力投入成本,更显著提升了模型的迭代敏捷性,助力其加快模型在真实业务场景的落地部署节奏,从而在白热化的市场竞争中率先抢占发展先机。

在LingBot-VLA基础之上,蚂蚁还研发了面向真实场景的深度补全模型LingBot-Depth,依托奥比中光Gemini 330系列双目3D相机进行RGB-Depth数据采集与效果验证。基于深度引擎芯片直出的深度数据进行训练与优化,能让不完整且受噪声干扰的深度传感器数据转化为高质量、具备真实尺度的三维测量结果,提升环境深度感知与三维空间理解能力。

从实际效果来看,在架构、硬件等一系列创新下,机器人能看到甚至是抓取反光的透明杯,为机器人、自动驾驶汽车等智能终端赋予更精准、更可靠的三维视觉,打开空间智能的新篇章。

一个无需造成数据、算力研发内耗,且能适配不同本体、支撑多任务执行的通用基础模型,是具身智能机器人走向物理世界真实操作的核心基座。

LingBot-VLA为具身智能产业的通用化发展筑牢了这一技术根基。

打开网易新闻 查看精彩图片

LingBot-VLA更具有里程碑的意义在于,其不仅全方位领先pi0.5,还触碰到了scaling law的大门。

基于在海量的真实世界数据上的预训练数据规模从3,000小时扩展到6,000、13,000、18,000,最终至20,000小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到20,000小时时,模型性能仍呈现上升趋势,表明VLA的性能仍然能够随着数据量的增加而提升。这些实验结果证明了VLA模型在用真实数据预训练时呈现了良好的可扩展性,为未来的VLA开发和大规模数据挖掘提供了重要启示。

此外,LingBot-VLA直接全链路开源,包括模型权重、代码、后训练工具链。提供模型、后训练工具链,确保开发者不仅“拿得到”,还能“用得好”,真正赋能产业落地。目前已经和星海图、松灵等本体厂商完成真机验证。

LingBot-VLA的实测表现及开源,不仅让行业看到了通用具身大模型解决实际产业痛点的可行性,更从技术层面降低了具身智能的研发与落地门槛。

对于中小开发者而言,数据、算力成本的下降、跨本体适配能力的实现,让其无需投入巨额资源开展底层模型研发,可直接基于通用底座进行场景化二次开发;对于头部企业而言,通用模型底座的成型,能推动行业从“各立标准、重复研发”的分散阶段,走向“底座通用、协同创新”的产业聚合阶段。

从产业发展规律来看,具身智能模型开源已成为技术规模化落地的必然选择。

开源生态是降低行业门槛、加速技术迭代的核心动力。LingBot-VLA的开源,恰好踩中了这一产业脉搏,以开源力量重构产业协同逻辑,打破具身智能领域“闭源内卷”的行业惯性,成为引领行业走出困局的关键引擎。

从产业生态的长远发展来看,LingBot-VLA的开源只是起点,其更大的价值在于激活整个具身智能产业的协同创新活力。

随着开源生态的持续完善,将吸引更多本体厂商、场景解决方案商、高校科研团队加入其中,形成“模型迭代-场景验证-反哺模型”的正向循环:开发者基于开源底座开发的场景化解决方案,将为模型带来更多真实场景的训练数据,推动LingBot-VLA持续优化迭代;本体厂商则可基于开源模型的核心能力,针对性升级硬件性能,打造更贴合通用模型的机器人产品;而各行业的场景方,也能快速找到适配自身需求的“模型+硬件”组合,加速具身智能机器人在各领域的规模化应用。

至此具身智能破局的明路已经清晰,通过客观高含金量的评测“规束”能力,用更优异的模型带动带动落地可行性,再以开源扩大可复制性。

这是一条极具想象空间的落地之路,也是具身智能机器人生产力革新的前奏。

结语

LingBot-VLA于具身智能产业而言是一个“新物种”,但当我们把视角调回蚂蚁集团本身,会发现该模型是蚂蚁以开源姿态探索AGI的一块拼图。

从基础大模型百灵,到通用AI助手灵光、具身智能机器人灵波再到今天的LingBot-VLA,以及涵盖基础模型、多模态、推理、新型架构及具身智能的完整技术体系与开源生态的开源社区“InclusionAI”。蚂蚁集团“由内到外”的构建AGI时代的智能底座和毛细血管。

可以说,蚂蚁集团并不是以竞争姿态入局,而是以开源为主基调,面向企业、高校等诸多主体提供了一个“新牌桌”。在这个牌桌上基础设施更完善,玩家手里的筹码也更多。

诸多主体的共同促动下,AGI不再是畅想,而是一条可落地的发展道路。