编辑|张倩

一个机器人到底需要多「聪明」,你才愿意把它请进家门?

前段时间,明星具身智能公司 1X 开始预售其人形机器人 Neo。演示视频中,它能从冰箱取水、叠衣服、把餐具放进洗碗机,俨然一个称职的家务助手。

但问题是,它当时真正能自主完成的,也只有这几件事。至于更多样的日常任务 —— 比如整理散落的玩具、擦拭台面、收纳杂物 —— 在现阶段,大多仍需要工程师远程教学。

这就多少有些令人迟疑:花费近 14 万元,迎来的不仅是一个「助手」,还可能是一双需要你授权进入家庭隐私空间的「眼睛」。社交网络上,不少人也对这种「半成品智能」表达了困惑甚至调侃。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这种「演示场景自主、真实任务依赖人工」的割裂状态,恰恰映射出当前具身智能落地的核心挑战:泛化能力不足

要突破这一瓶颈,业界共识是:需要更大规模、更多样化的真实机器人数据来「喂养」模型,使其学习到更本质的任务理解与动作泛化能力。然而,高质量真机数据的采集成本极高,且不同构型机器人的数据难以复用,导致大多数模型仍只能在有限数据或仿真环境中训练,难以实现真正的跨任务、跨本体泛化。

在这一背景下,蚂蚁灵波开源发布的第一款具身智能基座模型 LingBot-VLA带来了一个好消息:它基于约 20000 小时、覆盖 9 种主流双臂机器人构型的真实世界数据预训练而成,在涵盖 100 多项任务的统一真机评测基准下整体表现超越 Pi0.5,成为了能够跨本体、跨场景泛化的开源具身基座模型新标杆。

蚂蚁出手VLA
打开网易新闻 查看更多视频
蚂蚁出手VLA

这一超越并非偶然,而是源于 LingBot-VLA 在模型架构、数据规模与训练效率上的系统性突破。在最新的技术报告中,我们可以看到相关细节。而且,蚂蚁灵波还开源了相应的模型权重、代码、后训练工具链,确保开发者不仅能拿到模型,还能把模型调得更好。

打开网易新闻 查看精彩图片

  • 项目链接:https://technology.robbyant.com/lingbot-vla
  • 技术报告链接:https://arxiv.org/pdf/2601.18692
  • 模型下载链接:https://huggingface.co/collections/robbyant/lingbot-vla
  • 代码、后训练工具链链接:https://github.com/robbyant/lingbot-vla

看来,在具身智能这个领域,通过大规模扩展真实数据驱动模型泛化,已从技术愿景走向工程现实。

超越 Pi0.5,意味着什么?

在 LingBot-VLA 出现之前,Physical Intelligence 开源的 Pi0.5 几乎是行业内无法绕开的标杆。

为什么它有这么强的统治力?根本原因在于,Pi0.5 首次在开源世界里证明了:一个模型,不需要针对特定场景专门训练,就能在完全陌生的真实家庭环境中,完成长达 10-15 分钟的复杂操作链条。这件事让行业第一次清晰地看到,具身智能并非只能在「摆拍式」的单一任务中工作,而是有可能真正进入非结构化、充满不确定性的真实生活场景,完成从「实验室奇观」到「规模化产品」的过渡

所以无论是学术论文里的对比实验,还是产业界的模型选型,Pi0.5 都是那个「必须要放进去比一比」的对象。也因为有这么一个「扛把子」的开源模型存在,很多机器人公司并不直接从零训练模型,而是选择在 Pi0.5 的基础上进行微调,再部署到自己的机器人本体上,这也进一步巩固了它在开源具身生态中的核心地位。

当然,也有不少团队选择正面硬刚,以自研模型对标 Pi0.5。但真正落到实际评测中,情况却要复杂得多。许多模型往往只能在某一个特定任务、某一种固定构型的机器人上取得更好的成绩,一旦换一个任务类型,或换一台不同本体的机器人,优势就会消失,甚至性能大幅退化。本质上,这仍然是专用模型在特定分布上的胜利,而不是泛化能力的提升。

这种局面很大程度上受制于底层的现实约束。我们知道,目前困扰具身模型的最大问题就是数据不够用,而数据与特定硬件的强绑定又加剧了这一问题。如果模型和训练范式无法高效吸收多源异构数据,那么简单地「多喂数据」这条路就跑不通。

也正是在这样的行业背景下,真正意义上的「整体超越 Pi0.5」,才显得格外稀缺。它不只是某个指标上的领先,还意味着模型在数据利用方式、训练效率以及跨本体、跨任务泛化能力上,已经迈过了一个新的台阶。LingBot-VLA 的出现,正是在这个时间点上,给出了一个不同于以往的答案。

三大平台,100 项真机任务

LingBot-VLA 经住了考验

LingBot-VLA 的强泛化能力,本质上来源于其对海量跨本体数据的有效利用。这个模型所用的 20000 小时真机数据,来自 9 个不同的机器人平台。传统上,由于不同机器人之间的传感器、控制接口、本体结构差异巨大,这些数据是很难被统一利用的,而 LingBot-VLA 打破了这一瓶颈。

打开网易新闻 查看精彩图片

为了验证 LingBot-VLA 到底有多强,蚂蚁灵波在一个全新的具身智能基准 ——GM-100上对其进行了测试。

这个基准总共包含 100 项真机任务,由上海交大牵头,蚂蚁灵波等多机构联合研发。我们打开它的官网看了一下,发现事情并不简单 —— 那些任务不是简单的「pick,hold,place(拿取,保持,放置)」操作,而是涉及了很多长序列任务和精细操作,比如串糖葫芦、拉软包拉链、叠衣服…… 一些看似简单的任务,比如按台灯开关、整理小物体,也会因为机械臂构型、物体材质、位置摆放、指令理解等因素而呈现出区分度。可以说,GM-100 通过精心设计复杂、长尾的多样化任务,为具身大模型设置了一张科学、严谨且难以取巧的「统考卷」。想在这样一个数据集上拿到好成绩,对于现阶段的模型来说是相当不容易的。

https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26

即使是这样,蚂蚁灵波还是选择继续上难度 —— 模型并非仅在单一机器人上验证,而是被部署在来自三大不同平台(AgileX、Agibot G1、Galaxea R1Pro)的 25 台机器人上统一执行任务。如此一来,整个测试就成了一个跨本体、跨任务能力的综合考验

同时参与测试的还有 GR00T、WALL-OSS 以及 Pi0.5,这些都是开源具身模型里的优秀代表。

实验结果显示,无论在哪个平台上,LingBot-VLA 的成功率(SR)和部分成功率(PS,子步骤完成情况)都是最高的。尤其在融入基于深度的空间信息后,模型优势更加明显 —— 相比 Pi0.5 平均 SR 提高了 4.28%,PS 提高了 7.76%。这说明,无论是在复杂长序列任务的执行精度上,还是在面对新任务的适应能力上,LingBot-VLA 都展现出了更胜一筹的智能水平。

打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26
https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26

另外,值得注意的是,LingBot-VLA 的数据利用效率和算力效率也更高

实验显示,在 Agibot G1 平台上,仅使用 80 条示范数据进行后训练,LingBot-VLA 的表现就超越了使用 130 条完整数据训练的 Pi0.5 模型。而且,当数据量逐步增加时,LingBot-VLA 与 Pi0.5 的性能差距进一步拉大,这从侧面印证了其模型架构在学习潜能和泛化可扩展性上的设计优势。

打开网易新闻 查看精彩图片

而在算力效率方面,LingBot-VLA 的训练框架也展现出明显优势。在相同数据集和标准化架构下,其训练吞吐量(samples/s)均显著高于 StarVLA、Dex Botic、OpenPI 等主流开源框架,在 Qwen2.5-VL-3B-π 与 PaliGemma-3B-pt-224-π 两种模型设置下均实现最快训练速度。更突出的是,随着 GPU 规模从 8 卡扩展至 256 卡,其训练效率仍能紧密跟随理论线性扩展上限,展现出卓越的大规模分布式训练可扩展性。这意味着企业能以更低算力成本、更短训练周期完成模型迭代,实现从实验到落地的高效转化。

打开网易新闻 查看精彩图片

架构揭秘

从「大脑」到「小脑」的智能耦合

刚才提到,LingBot-VLA 在模型架构、数据效率、训练效率等方面都经得起考验,那么,蚂蚁灵波是怎么做到的呢?在技术报告中,他们透露了一些细节。

首先,在架构层面,LingBot-VLA 没有从零开始,而是选择了一个强大的预训练视觉语言模型(Qwen2.5- VL)作为理解世界的「大脑」,然后为其配上一个专门负责生成机器人动作的「动作专家」。两者并非简单拼接,而是通过一种名为Mixture-of-Transformers (MoT)的架构有机结合:视觉、语言和动作数据各自通过独立的处理通路,又在每一层通过共享的注意力机制进行交互。这样既保证了视觉语义知识能持续指导动作生成,又避免了不同模态信息间的相互干扰。

打开网易新闻 查看精彩图片

在动作生成上,模型采用了Flow Matching方法来建模连续、平滑的动作轨迹,这有助于提升复杂操作的控制稳定性。

对于机器人操作至关重要的空间感知能力,LingBot-VLA 采用了一种基于视觉蒸馏的深度信息融合方法。其核心在于:模型并未直接将深度图作为原始输入,而是通过一套可学习的查询(Learnable Queries)机制,使其视觉语言主干(VLM)提取的特征,与专用深度模型 LingBot-Depth 所生成的空间表征进行对齐。这让模型在推理时无需深度图输入,就能具备对三维几何关系的隐式理解,从而实现了在抓取、放置等任务中精度的大幅提升。具体效果如视频所示。

https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26
打开网易新闻 查看精彩图片
https://mp.weixin.qq.com/s/o0WKZi-JFYd8ZDHV6_5Xfg?click_id=26

在训练效率方面,研发团队还对其训练代码库进行了系统级优化。在分布式策略上,采用经过改进的 FSDP 策略,在内存占用与通信开销间取得了最佳平衡;在算子层面,利用 FlexAttention 和算子融合等技术,大幅提升了核心计算效率。最终,其训练吞吐量达到了每 GPU 每秒 261 个样本,相比主流开源代码库有 1.5 至 2.8 倍的加速,且扩展性极佳,能随着 GPU 数量增加近乎线性地提升训练速度。

LingBot-VLA——

开源具身基座模型新起点

总体而言,无论在模型泛化能力还是训练效率方面,LingBot-VLA 都已树立起一个新的行业标杆。然而,其真正的深远意义,不止于一次性能的超越,更在于它为「通过扩展真实数据实现更强泛化」提供了首个扎实的实证。

蚂蚁灵波在技术报告中首次系统性地揭示了 VLA 模型在真实机器人数据上的 Scaling Law:随着预训练数据规模从 3000 小时逐步扩展至 20000 小时,模型在下游任务的成功率获得了持续且显著的提升。尤为关键的是,即使达到 20000 小时这一量级,模型性能曲线仍未显示饱和迹象。这一发现为行业点亮了一座灯塔,用数据证实了「大力出奇迹」的路径在真实机器人学习中依然有效,为后续的大规模数据开发指明了可预期的回报。

打开网易新闻 查看精彩图片

更进一步看,这类以真实交互数据为核心、兼顾规模与效率的成功实践,也为 VLA 模型未来与世界模型的深度融合奠定了现实基础

不过,所有模型在 GM-100 上平均成功率都未超过 20% 的现实也在提醒我们,具身模型 —— 尤其是开源具身模型 —— 距离真正的跨本体、跨场景泛化还有很长的路要走。接下来,相关从业者可以在 LingBot-VLA 的基础上继续前进,而蚂蚁灵波的全链路开源(模型权重、代码、后训练工具链全部开源)也为这种持续迭代提供了土壤。

但如果把它放到更长周期里看,LingBot-VLA 可能还有另一层意义 —— 它也可以被理解为蚂蚁 AGI 版图里一次面向「真实世界交互」的落子:在基础大模型(百灵)与通用助手(灵光)等「通用智能」能力之外,通过具身智能把模型带入可验证、可复现的物理世界闭环。

这也解释了它为什么选择以开源方式发布,并同步建设 InclusionAI 这样的开源社区与技术体系:用更开放的协作与复现机制扩大验证面,让具身智能的迭代速度更接近 AGI 需要的「规模化试错」。

标杆的意义,在于被超越,更在于指明方向。LingBot-VLA 的发布,或许正是这样一个新方向的开始。