物理AI重塑汽车从感知世界到读懂世界|人工智能|机器人|汽车|自动驾驶|超级智能

2026年北京车展落下帷幕，当盘点这场全球汽车行业的年度盛会时，发现曾经占据头条的激光雷达数量、芯片算力比拼、续航里程竞赛已经悄然退居二线，一个全新的概念——“物理AI”，成为了几乎所有头部车企和智驾方案商共同的关键词。

从华为、Momenta、轻舟智航发布的新一代智驾系统，到蔚来、小鹏、理想等车企的技术路线更新，再到特斯拉神经网络世界模拟器的持续迭代，整个行业正在经历一场从“数字AI”到“物理AI”的升级，物理AI也正在成为汽车产业的共识。

从“自动驾驶”到“物理AI”共识的达成

如果我们把2025年之前视作汽车智能化的上半场——传感器数量堆叠、算力竞赛、端到端架构的百花齐放——那么从2026年开始，一个更“高级”概念正在覆盖并替代“自动驾驶”这个词本身。物理AI，简单来说，是让机器理解重力、惯性、因果关系等物理规律，从而真正参与到真实世界的运行之中。

这种转向的标志性事件是，全球汽车与科技巨头的行动方向正在高度收束。4月北京国际车展期间，Momenta宣布R7强化学习世界模型实现量产首发，CEO曹旭东公开表示：“物理AI的核心在于对世界基础物理规律的深度认知。”同一时间，小马智行联合创始人兼CTO楼天城发布了世界模型2.0，强调这套系统“并非简单的仿真环境生成工具，而是一套完整的强化学习训练体系”，其核心突破在于“赋予了AI自我诊断与定向进化的能力”。两个几乎同期的发布，指向同一个方向：自动驾驶正从“看见世界”跨入“理解世界”的新阶段。

来自国际市场的信号同样明确。2025年10月的计算机视觉顶级会议ICCV上，特斯拉自动驾驶副总裁Ashok Elluswamy公开了特斯拉FSD的技术路线，明确将端到端AI与基于神经网络的“世界模拟器”作为主要技术基石。

这个模拟器能够生成连续、多视角的驾驶场景，让AI在一天内学习相当于人类500年的驾驶经验，大幅降低对真实路测的依赖。值得注意的是，同年6月，Meta发布了开源世界模型V-JEPA 2，这项拥有12亿参数、经100万小时视频训练的技术，明确对标机器人和自动驾驶领域。Meta首席AI科学家杨立昆将这一方向定义为构建“能够理解现实世界运作逻辑、并能进行推理和规划的人工智能系统”，并认为“这直接指向了自动驾驶、智能交通管理、乃至下一代机器人车辆的核心”。

全球巨头一致的步伐绝非偶然，当自动驾驶从辅助功能走向自主决策，仅仅依靠感知和模仿已远远不够。传统方案依赖人类标注数据训练模型“学习别人怎么开”，但道路场景的复杂性可谓是无限的，单靠数据标注完全是天方夜谭。物理AI的解决方案是：让AI在无数次虚拟推演中可以自主探索“如果我是这个场景中的一员，我该怎么开”——它有能力预测每个动作的物理后果，从而在从未见过的环境中做出安全的决策。

世界模型与强化学习，双重引擎推动升级

如果说物理AI的发展路线已经清晰，那么世界模型和强化学习就是达成这一目标所必需的两大技术引擎。业界广泛认同的判断是，“世界模型与强化学习的结合，正推动自动驾驶行业从单纯追求‘自动驾驶’功能，向着更深远地改造物理世界的目标前进”。这个判断随着各家的落地提速而越来越具有现实分量。

传统智驾系统的核心瓶颈在于，它们本质上是基于“识别-匹配-执行”的逻辑运行的。系统通过传感器感知环境，然后将感知到的信息与数据库中已有的场景进行匹配，最后执行预设的操作。这种模式在处理常见场景时表现尚可，但一旦遇到数据库中没有的长尾场景，就很容易出现失误。轻舟智航CEO于骞表示：“数字世界的AI比如AlphaGo已经无敌了，但物理世界的AI比如自动驾驶还不如人类司机。因为物理世界充满了不确定性，简单的背题是永远背不完的，总会有新题产生。”

世界模型的核心价值在于补齐系统对物理场景的“理解”与“预测”能力。通俗地说，世界模型的作用不是在事故发生时再让AI做出反应，而是先在数字空间里把所有场景都推演过一遍。这正是人类驾驶员积累经验的方式——一个十年驾龄的老司机之所以危险预判能力远超新手，不仅因为他见过的场景更多，更因为他的大脑中早已形成了对物理世界运行规律的隐性认知。

在国内，各家在世界模型方面的布局已从概念走向落地。Momenta在R7强化学习世界模型的架构中采用了一种三层设计——先通过海量真实数据预训练将物理规律“压缩”进模型，然后将世界模型用于闭环仿真，最后在前两者的基础上进行强化学习。华为乾崑智驾ADS 5则在云端世界引擎层面走得更加激进——其扩散生成模型能够在虚拟空间中生成的高密度极限场景，是真实路测的1000倍。更值得关注的是，华为首次在世界模型中引入“多智能体博弈”机制，从而将交通参与者之间互相试探、博弈的动态关系纳入训练体系。这意味着系统不仅能理解自身的运动，还能预测其他车辆、行人的行为逻辑——这是自动驾驶向“人类级驾驶智慧”迈出的关键一步。

强化学习承担的角色，是人类驾驶行为从“模仿”到“超越”的跳板。过去几年，行业主流的技术路线是行为克隆——收集人类驾驶数据，让AI模仿人类的操作。这种方式的瓶颈显而易见：AI只能模仿它见过的东西，面对长尾场景无法举一反三，更遑论超越人类。而强化学习则通过一套奖励与惩罚机制，让AI在虚拟世界中反复试错，最终摸索出一套最优策略。正如Momenta CEO曹旭东所言，强化学习让智能驾驶从“看见世界”升级为“理解世界”。

这种从模仿到强化的转变正在改变行业的技术竞争格局。理想、小鹏、蔚来等多家车企和供应商已经在2025至2026年间先后将VLA模型和世界模型推上车端。2025年8月，理想、小鹏、元戎启行在两周内先后宣布VLA大模型上车，VLA被业内视为端到端方案的“智能增强版”——其名称中的V代表视觉感知，A代表动作执行，而中间的L则代表大语言模型，功能是用语言数据训练模型进行隐式逻辑推理。进入2026年后，智能驾驶的叙事逻辑由此发生了微妙变化——当行业还在围绕“端到端”的数据闭环与场景覆盖率进行军备竞赛时，新的引领者已将讨论引向物理世界规律预训练的维度。

从市场基本面来看，中商产业研究院数据显示，2025年中国汽车产销超过3400万辆，自动驾驶市场规模同比增长18.1%，预计2026年渗透率将超过40%。按照其预测，2026年中国自动驾驶市场规模将达到5293亿元。L2+级方案年均复合增长率高达33.7%，而Robotaxi市场的年复合增速更是达到74%。

政策端的推进同样为技术落地扫清了道路。2025年12月，工信部正式公布我国首批L3级有条件自动驾驶车型准入许可，两款车型在北京、重庆指定区域开启上路试点，标志着中国L3级自动驾驶从测试阶段迈入商业化应用的关键一步。随后，2026年3月落地的L3责任认定国标明确：自动驾驶激活状态下的事故由车企承担，并强制配备“黑匣子”数据记录系统。责任边界的清晰化，意味着L3级自动驾驶的商业化在法律层面获得了可操作性。

简单来说，物理AI之所以能够迅速成为行业共识，根本原因在于它触及了一个基本命题：真正的自动驾驶，不可能建立在无穷列举场景的穷举法之上，只能依靠对物理世界运行规律的理解和推演。当然，从蓝图到现实之间仍然有着不容回避的挑战。物理AI需要海量真实物理数据、高算力芯片、多传感器融合以及大规模模型训练与推理，单车硬件加软件成本远超传统智能辅助驾驶，向售价15万元以下主流车型的下探仍有难度。

与此同时，系统越复杂、稳定性越差——这恰恰也是从辅助到自主的必经阵痛。而物理AI具备自主决策能力所带来的安全与合规风险，同样需要监管与企业共同构建可验证、可追责的技术与制度框架。但当AI不再只是“看”这个世界，而是开始在数字空间里理解重力、惯性和因果联系，人类距离那个“车比自己开得更好”的未来，确实又近了一步。