编者按:
让 AI 像人类一样思考并行动,曾是科幻小说中的终极幻想。如今,随着通用大模型向物理世界的这一跃,具身智能大脑成为了科技竞争的绝对高地。
但技术的演进绝非一蹴而就的坦途,数据匮乏、泛化难题、甚至每一次微小的幻觉,都是横亘在 Demo 与真实落地之间的鸿沟。
当端到端成为行业热词,当VLA模型不断刷新上限,我们需要冷静的思考:什么才是具身智能大脑的最佳架构?算力与数据的飞轮如何驱动物理智能的涌现?
在这个技术范式转移的前夜,星河频率特别策划“具身智能大脑”系列文章,我们将深入演进中的技术范式,试图穿透技术概念的表面热潮,回归系统与架构的本质思考,记录智能体从有躯体到有智慧的进化历程。
作者 | 毛心如
大多数人不知道,关于Scaling Law的原始研究来自百度,而不是OpenAI。
2014年,Anthropic 创始人 Dario Amodei在百度北美实验室研究AI的这段时间,他摸到了大模型发展的圣杯——Scaling Law。
Dario Amodei离开百度后加入了OpenAI,最终Scaling Law在美国率先开花结果,催生了GPT-3.5。
但百度在2017年发表的《Deep Learning Scaling is Predictable, Empirically》论文里,就已经详细讨论了机器翻译、语言建模等领域的Scaling现象。
当时百度的研究人员用 LSTM 代替了 Transformers,而且没有将他们的发现命名为Laws。
后来,ChatGPT 3.5横空出世,让全球都认识了OpenAI,也让LLM彻底开始了繁荣发展。
百度的这段往事,也成为了与Dario Amodei同期进入百度的MiniMax创始人闫俊杰心里的遗憾。
十年后的今天,当全球AI的聚光灯从大语言模型转向更具挑战的具身智能时,相似的历史场景似乎正在重演。
中国研究者在关键架构上早有先见,却常由海外团队带火并收获掌声。
但这一次,中国的具身智能玩家们已决心不再让历史重演。
从VLA模型、世界模型到强化学习,他们正在关键技术领域构建起完整的创新体系,以一种更系统、更深入的方式参与这场关于智能本质的竞争。
VLA模型的核心价值,是彻底打破了传统机器人的被动困境,将机器人从只能完成专项任务的提线木偶,升级为具备自主理解、自主决策能力的智能体。
而中国团队在这一领域的创新探索,其实也一直走在行业前列,却被国外团队的热度掩盖。
早年的机器人技术,核心依赖两种驱动模式,固定程序编程和模块化控制。
这两种方式本质上都是人定义规则、机器人执行,机器人一直是被动的工具,缺乏了主动理解能力。
随着LLM、VLM技术的爆发和突破实现了先理解后生成的范式突破,模型可以在大规模文本与图像上学到语义、常识与推理能力。
基于此,一个技术直觉出现:既然能用同一种模型去理解语言和图像,能不能把动作也放进同一套体系里,让模型直接把看到、听到的信息映射成要做什么。
所以VLA模型的崛起,本质上是LLM 与VLM技术溢出的必然结果。
2023年7月,谷歌DeepMind发布模型RT-2,第一次正式提出了VLA概念。
RT-2彻底改变了机器人编程的范式,不再需要工程师为每个任务编写复杂的控制代码,而是让机器人通过观察和学习,自主生成合适的动作。
尽管RT-2这类VLA可以处理一些基本任务,但还有两个痛点,一是面对复杂任务,推理能力不足;二是在微调和推断上,算力成本太高。
2024年6月,中国公司智平方联合北大等机构,首次将状态空间序列模型Mamba引入了VLA架构,推出了轻量化结构RoboMamba。
相比之前的VLA模型,RoboMamba不仅复杂度降低了,还显著提升了长序列推理能力,直接实现了VLA模型效率与推理泛化能力的双重提升。
这项论文当年入选了人工智能顶会NeurIPS 2024,也创造了中国具身公司在VLA领域国际舞台的首次发声。
如今,VLA模型已经成为具身智能大脑发展的主流路线,而在共识之下,许多玩家也开始了一些细分思路的分流。
在端到端VLA模型的这个思路下,入局玩家大体上被分成了两派,一派是采取分层端到端,另一派是纯粹的端到端。
前者的代表玩家有Figure AI、星动纪元、星海图、星尘智能等,后者的代表玩家则是Physical Intelligence、自变量机器人。
这里需要厘清的是,分层属于端到端的一种实现路径,二者并不是对立的关系。
纯粹的端到端路线的核心在于用统一或少数大模型直接从感知映射到动作决策。而分层端到端则是在内部采用系统1、系统2的快慢脑方式来拆分理解任务和执行任务。
最近新发布的Sharpa的CraftNet、Figure AI的Helix02,还在这一基础上加入了系统0,进一步提升机器人操作的精度和准确度,让VLA模型的落地更具实用性。
然而,在目前的具身智能竞争里,要问某项技术工作谁最具有代表性,最先被提到的总是Physical Intelligence、Figure AI、谷歌等国外公司。
但其实中国公司在这一块同样付出了不少的努力,但大多陷入了中国团队先行落地成果,最后由外国团队带火的情况。
例如,分层端到端架构彻底开始火源于2025年2月Figure的Helix01发布,但早在2024年9月星动纪元就已经推出了HiRT快慢分层架构,并且这一架构也应用到其自研端到端原生机器人大模型 ERA-42 中。
值得一提的是,ERA-42也是国内首个实现一个具身大脑VLA控制机器人四肢及末端灵巧手的模型。
而自变量机器人的王潜也有相似的经历。2024年10-11月其团队开始研发 any-to-any 模型,实现多模态输入输出,还同期完成具身思维链(COT)研发。
这与2025年年中PI发布的π0.5模型技术方向也存在着高度一致。
这种中国先发、海外带火的模式,恰似LLM遗憾的重演,也是中国具身智能玩家必须突破的困局。
当VLA赋予机器人实时感知和响应的能力后,一个新的问题浮现,机器人如何像人类一样,对物理世界有深刻的理解和预测能力。
即便最先进的VLA模型,本质上也属于开环执行模式。即根据当下的视觉信息和语言指令预测动作,却无法预判这个动作会引发什么后果,一旦出现意外情况,就难以调整策略。
正因这个技术痛点,让世界模型成为具身智能领域炙手可热的研究方向,甚至有不少学者认为,世界模型是实现AGI的终局关键。
简单来说,世界模型就是让机器人拥有提前推演的能力。
它通过对环境的动态感知与规律学习,构建起一个虚拟的环境模型,能预测出做出某个动作后,环境会发生怎样的变化,从而为机器人提供前瞻性的决策依据。
目前行业对世界模型尚无统一定义,不同团队基于对认知的不同理解,走出了三条截然不同的技术路线。
以杨立昆为首的研究团队,认为真正的智能必须像人一样去理解为什么。
杨立昆本人对于LLM能够实现AGI一直存在质疑,认为语言载体存在根本性缺陷,所以他提出了基于V-JEPA架构的世界模型。
这类模型不依赖语言文本,而是通过学习视频和空间数据来理解物理世界,同时具备规划、推理和长效记忆的能力。
以李飞飞为首的World Labs则聚焦空间智能,让AI理解物体在三维空间中的关系、遮挡、透视和运动规律。
他们开发了能够从2D图像推断3D结构的系统,这条路线强调几何一致性和物理合理性,对于机器人导航、操作等任务有直接的应用价值。
谷歌DeepMind的Genie则代表了另一种思路,训练一个能从图像和文本生成可交互虚拟世界的模型。
目前最新的Genie3通过给定一段文本描述,就能生成相应的3D环境,这种方法通过创造多元训练环境,让AI在其中学习物理规律和互动策略。
从技术实现的角度分析:
杨立昆的方向最理想化,但也最难落地;
李飞飞的方式成本高,3D生成也存在对物理原理的理解缺失;
谷歌Genie的思路目前可执行性最高,也少不了仿真模拟到现实的Gap。
在这场外国玩家引领的世界模型激战里,中国玩家并不是坐在场边围观,而是早早地开始进行可操作的工程执行。
2024年12月,星动纪元发布了融合世界模型的算法框架VPP,这也是全球首个将世界模型与VLA框架深度融合的算法。
星动纪元在VPP里选用的世界模型思路跟谷歌2024年推出的Genie1相似,主打用视频训练 AI 来理解世界,因为一直以来互联网视频都是机器人数据的重要来源。
通过视频扩散模型的预测视觉表征作为机器人策略的输入,星动纪元团队首次在生成式视频模型上实现通用机器人策略。
除了帮助机器人理解物理世界外,世界模型的引入也降低了机器人学习的难度,同时也能作为一种监督和提前预知的未来,观察机器人的策略学习效果。
让机器人直接去执行指令可能会损坏机器,同时整个检测的复杂度也会上升,通过先验经验预判,如果后续操作会失败,机器人会选择停止策略。
2025年10月,星动纪元也联合PI团队发布论文Ctrl-World,首次提出可控生成式世界模型,突破了传统世界模型的单视角幻觉、动作控制不精细、长时一致性差三大瓶颈。
对于当下而言,世界模型更像辅助VLA模型提升综合性能的一项技术工具。
但随着技术路径的不断收敛,VLA模型的不断提升,包括科研成果的进一步落地,世界模型很有可能会成为继VLA之后的具身智能新的主流范式。
当VLA模型解决了能动的问题,世界模型补齐了能预判的短板,具身智能的下一个核心诉求,就是能优化。
而强化学习,正是实现这一诉求的关键技术,也是当前具身智能研究中备受关注的热点领域。
它与VLA、世界模型形成完美互补:
VLA赋予机器人感知与理解的能力
世界模型赋予机器人预测与想象的能力
强化学习赋予机器人增强学习与优化的能力
强化学习的核心逻辑并不复杂,本质上是模拟人类试错学习的过程。
通过试错-奖励的闭环机制,让机器人自主探索动作策略,最终让模型逐渐收敛到最优策略。
这种学习模式的最大优势的在于,无需依赖海量的专家演示数据,也无需人工设计动作规则,机器人能通过自主探索适应未知场景,甚至发现人类未曾想到的高效策略。
早在2016年,AlphaGo凭借强化学习击败人类围棋世界冠军,就让这项技术名声大噪,但在具身智能领域,强化学习的落地却长期面临瓶颈。
早期机器人的硬件成本高昂,强化学习的试错过程容易导致设备损耗,且真实环境中的变量复杂,难以设计合理的奖励函数,导致强化学习在机器人领域的应用多局限于虚拟仿真场景。
最近一年,随着VLA和世界模型的发展,以及强化学习算法的优化,这项技术再次成为具身智能领域的研究热点。
同时,这一轮强化学习的热潮,也离不开强化学习权威、Physical Intelligence创始人Sergey Levine的推动。
他带领团队发布的一系列成果,不仅验证了强化学习与VLA结合的潜力,更重塑了行业对具身智能训练范式的认知。
Sergey Levine的研究重心之一是离线强化学习,即利用已有的历史数据训练模型,无需机器人在真实环境中实时试错,从而避免了设备损耗和安全风险,大幅降低了训练成本。
其团队最新发布的π*0.6模型,展现了VLA模型性能的又一个新高,甚至在Robot Olympic完成了剥橘子、翻袜子、拿钥匙开锁等高难度动作。
但π*0.6也反映出强化学习领域的一个核心痛点,那就是奖励函数的设计难度太高。
复杂任务中,单个动作的价值难以量化,且不同场景下的奖励标准差异巨大,所以π*0.6模型不得不引入监督学习的范式辅助训练,没有完全发挥强化学习自主探索的优势。
这一局限也让工程师们意识到,离线强化学习虽成本可控、安全性高,却难以应对训练数据之外的未知场景,泛化能力不足,需要引入在线强化学习,通过实时环境反馈动态优化策略。
在这个技术发展阶段,中国团队的技术突破展现出了独特的价值。
星动纪元2025年5月发布的iRe-VLA框架,实现了全球首次将在线强化学习融入VLA模型,为解决强化学习的核心痛点提供了突破性解法。
该框架通过算法优化,在保证实时反馈的同时,将试错风险和设备损耗降低到可接受范围,让机器人能在真实环境中自主探索、动态优化动作策略。
更值得一提的是,iRe-VLA的核心思路,成为π*0.6模型强化学习模块的重要参考来源之一。
LLM和具身在RL上的区别
在iRe-VLA发布同时期,中国玩家灵初智能发布了分层端到端VLA+强化学习算法模型Psi-R1,R1能够让机器人基于CoAT框架的自主推理系统,攻克了开放场景下的长程复杂任务挑战。
2025年11月,由智元推出的,全球首个具身智能机器人真机强化学习技术正式投入上海一家智能设备产线,将机器人训练周期从数周缩短至十几分钟,任务完成率达到100%。
中国玩家在强化学习这一波浪潮里,并不是追随者,而是贡献者,不仅有学术成果的实际影响力,更有早于国外玩家的协同的产业落地。
回顾大语言模型的发展,一个深刻的教训是,早期洞察并不等于最终成功,从理论认识到产业领先之间,有着漫长的工程化、产品化和生态化之路。
如今,在具身智能这一被认为是物理AI下一个突破口的领域,中国团队在各个关键技术点上已展现出与全球同行并跑的态势。
具身智能的竞争,本质上是原创能力与落地效率的双重竞争,更是话语权的竞争。
要拒绝LLM式遗憾,我们需要做好两件事:
一是加强学术成果的市场化传播,让中国团队的技术创新被行业看见、被市场认可,打破国外团队对赛道话语权的垄断。
二是加速技术落地迭代,通过真实场景的应用反馈优化技术,形成学术创新-产业落地-迭代升级的闭环,让原创成果真正转化为产品竞争力。
历史不会简单重复,但会押着相似的韵脚。但至少现在成功概率,中美玩家都是五五开。
热门跟贴