编辑|泽南
大模型的革命行将结束,即将开启的会是物理 AI 时代?
上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并不意味着理解现实。真实世界纷繁复杂、充满物理性和因果关系,而如今的大语言模型(LLM)几乎无法触及这些。
LeCun 认为,真正的智能必须能像人类一样,在脑海中进行推演,只有具备了这种「预测未来」的能力,AI 才能进行复杂的规划。
虽然关于 AI 技术理论的争鸣多发生在大洋彼岸,但令人出乎预料的是,在 2026 年开年,率先把物理 AI 这一最前沿的方向推进一步的,却是一家中国公司。
在刚刚过去的一周,蚂蚁集团旗下的蚂蚁灵波科技(Robbyant)以一种近乎「饱和式攻击」的节奏,连续四天开源发布了四款具身智能模型:高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 到具身世界模型 LingBot-VA。
在机器之心与蚂蚁灵波 CEO 朱兴及首席科学家沈宇军的对话中,我们发现,蚂蚁正在通过一套独特的「逆向思维」,试图探索具身智能(Embodied AI)新路径 —— 从物理交互出发,在真实世界中构建智能。
蚂蚁的 AI First,不止于数字世界
下一个 AI 技术的突破将会是物理世界的 AI:世界模型、因果关系、真正的规划。蚂蚁灵波正在以行动验证这一重要趋势。
朱兴在采访中表示,蚂蚁的 AGI 版图包括数字智能与物理智能,在设立灵波科技前,蚂蚁已布局多家具身智能(Embodied AI)及机器人相关企业,覆盖整机、核心零部件、灵巧手、具身大模型等多个关键环节。2025 年,蚂蚁灵波科技正式成立,承担在具身领域探索 AGI 的使命。经过一年的研发,团队端出了四款具身模型,在一周内集中开源。
朱兴介绍,灵波的工作「从真实硬件出发」,希望从数字世界迈向物理世界,为机器人打造更聪明的大脑。
「我们笃定数字世界的智能还远没有达到上限,语言模型、多模态模型、视频生成模型还会进一步发展」,朱兴说,「蚂蚁的百灵团队负责数字智能的技术演进,灵波也积极参与其中,因为很多基础技术在具身模型的训练中可以复用。同时灵波还负责另一条路径的探索。」
他表示,「物理世界智能跟数字世界智能最大的不同,就是前者可以拿到真实世界的反馈。从真实反馈中学习往往是『智能』产生的必要条件。」
因此,灵波过去一年核心聚焦在具身基模的训练。「我们希望具身智能领域能和大语言模型一样,随着基模能力的提升让物理世界整体智能水涨船高。」
技术路线:真实数据优先
本次发布中最值得玩味的,是蚂蚁灵波对具身智能技术路线的「非主流」选择。
目前,具身智能领域的流行路径之一便是「Sim-to-Real」(从仿真到现实):其核心思路是,为了解决机器人训练数据稀缺、试错成本高等问题,先在仿真的虚拟环境中海量、安全地训练机器人(或 AI 智能体),再将习得的策略「迁移」到现实世界的机器人身上。
然而,蚂蚁灵波对此路径给出了不一样的观点。
「Sim-to-Real 不是我们选择的主技术路线,」沈宇军在采访中表示。「我们坚定认为基模的训练应该更多地使用互联网数据和真实数据。所谓的『真实数据成本高』也只是阶段性的,随着产业发展会有序解决,比如可以通过更低成本更加高效的数采方式等等。」
同时,沈宇军认为「仿真数据很多场景还无法模拟」的挑战是切实存在的 —— 流体、柔性物体、传感器误差,这些仿真很难搞定,解决周期可能比降低真实数据的采集成本更久。
相比于在虚拟温室里「造梦」,蚂蚁灵波选择了一条更艰难但可能更正确的路:互联网数据 + 真实数据。
这一思路在 LingBot-VLA 上得到了验证。基于九种主流构型的超两万小时高质量真机数据的预训练,该模型在权威评测中超越了一系列国际顶尖基线。这项技术引发了 AI 社区的关注,人们认为这是现实世界机器人技术的一大进步。
而作为本次发布的「压轴」,LingBot-VA 则彻底展现了灵波的技术野心。这是全球首个用于通用机器人控制的因果视频 - 动作世界模型。它学会了利用视频生成模型来实现「想象」,结合多模态模型的逻辑推理,再叠加真实环境的反馈。
蚂蚁灵波正在试图构建视频预测与现实世界行动之间的闭环。现在具身智能的 AI 已经可以基于单一模型预测未来的景象,并生成实现该视频所需的操作,仅通过 30-50 次真实世界的演示就能学习新技能,其成功率还要比常见的基准模型(如 π0.5)高出约 20%。
「我们发现,利用物理世界的数据叠加一层预训练,对具身模型能力的提升非常有帮助,」沈宇军表示。这解释了为什么 LingBot-VA 能在业界第一个实现「边推演、边行动」—— 它不是在死记硬背仿真数据,而是在试图理解物理规律。这似乎刚好回应了 Yann LeCun 对于 AI 在物理世界里实现预测的呼吁。
除此之外,在上周发布的深度视觉模型 LingBot-Depth 上,蚂蚁灵波探索了通过深度传感器误差作为掩码来优化深度图的深度补全模型,大幅降低了当前主流视觉深度相机的误差,让机器人「看的更清楚」。
而在 LingBot-World 上,该团队开源了视觉效果堪比谷歌 Genie 3 的实时可交互世界模型,其生成的世界严格遵循物理规律,也为具身智能的模拟打好了基础。
这些技术在全球机器学习社区吸引了大量关注,人们期待来自中国的开源技术可以改变业界现状。
不过在朱兴看来,蚂蚁灵波目前所做的还是打好基础:「具身智能总体技术阶段目前还处于早期,且技术路线也没有收敛,从这点来说(蚂蚁灵波的技术)没有什么是其他家一定做不到的。我们反而更关注模型本身能力的上限探索以及如何让生态伙伴用的更好。我们之所以做基模,很大的考量反而就是为了降低生态伙伴后训练的成本。而我们这次发布,也同步开源了高效的后训练代码,也是这一想法的落地。」
机器人的「DeepSeek 时刻」还在路上
在 2025 年的 1 月,DeepSeek R1 横空出世,用开源证明了低成本 + 强推理的可行性。如今随着灵波等公司的模型开源,具身智能领域是否也会迎来它的 R1 时刻?
对此,朱兴表示:「DeepSeek 时刻对具身智能来说还为时尚早,应该说 ChatGPT 时刻都还没有到来。面向下一步,我们会持续加强对具身世界模型的投入,探索具身智能的新上限。」
但也正是因为如此,蚂蚁灵波可以成为那个「点火者」。通过 InclusionAI 社区,灵波将这四款核心模型全部开源。朱兴的逻辑非常清晰:在路线尚未收敛的早期阶段,开源是推进行业进步的最优解,因此未来蚂蚁灵波的技术还会继续全面开放。
更深层的野心在于生态位。
不同于特斯拉 Optimus「造脑也造驱干」的封闭模式,蚂蚁灵波希望构建起机器人领域的「安卓系统」。「我们更侧重基模研发,初期就坚定选择了跨构型的路径,通过跟行业内相关数据提供商深入合作来满足模型训练数据多样性的需要,」朱兴解释道。
当然,机器人的本体千差万别,基于统一的基础模型,任务执行的成功率还会受到影响。蚂蚁灵波的策略是提供高效的「后训练工具链」,让硬件厂商能用更低的数据量和 GPU 成本,将灵波的「大脑」适配到自己的「身体」上。
这或许才是开源背后的真正商业护城河。
终局猜想
蚂蚁造的具身智能,最终会去哪?
虽然商业模式会「自然而来」,但蚂蚁基因中的服务业属性,或许可以让我们猜测一下灵波「大脑」加持的机器人会是什么样子。从民生服务到普惠金融,蚂蚁的优势在于连接人与服务。
蚂蚁灵波期待随着技术成熟,以具身智能形式呈现的服务能够更好地走入物理世界,更好的服务于人。
当然,眼前的挑战依然巨大。沈宇军表示,从技术角度上看,强化学习(RL)的具体落地范式尚未收敛,AI 推理中至关重要的 System 2(慢思考)的能力仍在探索中,这些都可能是制约下一步技术大规模落地的瓶颈。
但背靠蚂蚁集团 AGI 整体战略,业界一梯队的 AI Infra 支持,以及坚定的资金投入,灵波显然已经做好了打持久战的准备。
随着蚂蚁灵波最近四个模型的连续发布和开源,蚂蚁的 AI 战略实现了从数字世界到物理世界的关键延伸,这标志着其「基础模型 - 通用应用 - 实体交互」的全栈路径已经逐渐清晰。下一步,蚂蚁灵波计划持续探索模型能力的提升,尤其是世界模型跟具身智能的深度结合,并积极拓展生态,协助生态合作伙伴实现落地,让机器人真正走入商业应用。
一个深度融合、开源开放并服务于真实场景的 AGI 生态,正在加速成型。
热门跟贴