2026年北京车展落下帷幕,当盘点这场全球汽车行业的年度盛会时,发现曾经占据头条的激光雷达数量、芯片算力比拼、续航里程竞赛已经悄然退居二线,一个全新的概念——“物理AI”,成为了几乎所有头部车企和智驾方案商共同的关键词。
从华为、Momenta、轻舟智航发布的新一代智驾系统,到蔚来、小鹏、理想等车企的技术路线更新,再到特斯拉神经网络世界模拟器的持续迭代,整个行业正在经历一场从“数字AI”到“物理AI”的升级,物理AI也正在成为汽车产业的共识。
从“自动驾驶”到“物理AI”共识的达成
如果我们把2025年之前视作汽车智能化的上半场——传感器数量堆叠、算力竞赛、端到端架构的百花齐放——那么从2026年开始,一个更“高级”概念正在覆盖并替代“自动驾驶”这个词本身。物理AI,简单来说,是让机器理解重力、惯性、因果关系等物理规律,从而真正参与到真实世界的运行之中。
这种转向的标志性事件是,全球汽车与科技巨头的行动方向正在高度收束。4月北京国际车展期间,Momenta宣布R7强化学习世界模型实现量产首发,CEO曹旭东公开表示:“物理AI的核心在于对世界基础物理规律的深度认知。”同一时间,小马智行联合创始人兼CTO楼天城发布了世界模型2.0,强调这套系统“并非简单的仿真环境生成工具,而是一套完整的强化学习训练体系”,其核心突破在于“赋予了AI自我诊断与定向进化的能力”。两个几乎同期的发布,指向同一个方向:自动驾驶正从“看见世界”跨入“理解世界”的新阶段。
来自国际市场的信号同样明确。2025年10月的计算机视觉顶级会议ICCV上,特斯拉自动驾驶副总裁Ashok Elluswamy公开了特斯拉FSD的技术路线,明确将端到端AI与基于神经网络的“世界模拟器”作为主要技术基石。
这个模拟器能够生成连续、多视角的驾驶场景,让AI在一天内学习相当于人类500年的驾驶经验,大幅降低对真实路测的依赖。值得注意的是,同年6月,Meta发布了开源世界模型V-JEPA 2,这项拥有12亿参数、经100万小时视频训练的技术,明确对标机器人和自动驾驶领域。Meta首席AI科学家杨立昆将这一方向定义为构建“能够理解现实世界运作逻辑、并能进行推理和规划的人工智能系统”,并认为“这直接指向了自动驾驶、智能交通管理、乃至下一代机器人车辆的核心”。
全球巨头一致的步伐绝非偶然,当自动驾驶从辅助功能走向自主决策,仅仅依靠感知和模仿已远远不够。传统方案依赖人类标注数据训练模型“学习别人怎么开”,但道路场景的复杂性可谓是无限的,单靠数据标注完全是天方夜谭。物理AI的解决方案是:让AI在无数次虚拟推演中可以自主探索“如果我是这个场景中的一员,我该怎么开”——它有能力预测每个动作的物理后果,从而在从未见过的环境中做出安全的决策。
世界模型与强化学习,双重引擎推动升级
如果说物理AI的发展路线已经清晰,那么世界模型和强化学习就是达成这一目标所必需的两大技术引擎。业界广泛认同的判断是,“世界模型与强化学习的结合,正推动自动驾驶行业从单纯追求‘自动驾驶’功能,向着更深远地改造物理世界的目标前进”。这个判断随着各家的落地提速而越来越具有现实分量。
传统智驾系统的核心瓶颈在于,它们本质上是基于“识别-匹配-执行”的逻辑运行的。系统通过传感器感知环境,然后将感知到的信息与数据库中已有的场景进行匹配,最后执行预设的操作。这种模式在处理常见场景时表现尚可,但一旦遇到数据库中没有的长尾场景,就很容易出现失误。轻舟智航CEO于骞表示:“数字世界的AI比如AlphaGo已经无敌了,但物理世界的AI比如自动驾驶还不如人类司机。因为物理世界充满了不确定性,简单的背题是永远背不完的,总会有新题产生。”
世界模型的核心价值在于补齐系统对物理场景的“理解”与“预测”能力。通俗地说,世界模型的作用不是在事故发生时再让AI做出反应,而是先在数字空间里把所有场景都推演过一遍。这正是人类驾驶员积累经验的方式——一个十年驾龄的老司机之所以危险预判能力远超新手,不仅因为他见过的场景更多,更因为他的大脑中早已形成了对物理世界运行规律的隐性认知。
在国内,各家在世界模型方面的布局已从概念走向落地。Momenta在R7强化学习世界模型的架构中采用了一种三层设计——先通过海量真实数据预训练将物理规律“压缩”进模型,然后将世界模型用于闭环仿真,最后在前两者的基础上进行强化学习。华为乾崑智驾ADS 5则在云端世界引擎层面走得更加激进——其扩散生成模型能够在虚拟空间中生成的高密度极限场景,是真实路测的1000倍。更值得关注的是,华为首次在世界模型中引入“多智能体博弈”机制,从而将交通参与者之间互相试探、博弈的动态关系纳入训练体系。这意味着系统不仅能理解自身的运动,还能预测其他车辆、行人的行为逻辑——这是自动驾驶向“人类级驾驶智慧”迈出的关键一步。
强化学习承担的角色,是人类驾驶行为从“模仿”到“超越”的跳板。过去几年,行业主流的技术路线是行为克隆——收集人类驾驶数据,让AI模仿人类的操作。这种方式的瓶颈显而易见:AI只能模仿它见过的东西,面对长尾场景无法举一反三,更遑论超越人类。而强化学习则通过一套奖励与惩罚机制,让AI在虚拟世界中反复试错,最终摸索出一套最优策略。正如Momenta CEO曹旭东所言,强化学习让智能驾驶从“看见世界”升级为“理解世界”。
这种从模仿到强化的转变正在改变行业的技术竞争格局。理想、小鹏、蔚来等多家车企和供应商已经在2025至2026年间先后将VLA模型和世界模型推上车端。2025年8月,理想、小鹏、元戎启行在两周内先后宣布VLA大模型上车,VLA被业内视为端到端方案的“智能增强版”——其名称中的V代表视觉感知,A代表动作执行,而中间的L则代表大语言模型,功能是用语言数据训练模型进行隐式逻辑推理。进入2026年后,智能驾驶的叙事逻辑由此发生了微妙变化——当行业还在围绕“端到端”的数据闭环与场景覆盖率进行军备竞赛时,新的引领者已将讨论引向物理世界规律预训练的维度。
从市场基本面来看,中商产业研究院数据显示,2025年中国汽车产销超过3400万辆,自动驾驶市场规模同比增长18.1%,预计2026年渗透率将超过40%。按照其预测,2026年中国自动驾驶市场规模将达到5293亿元。L2+级方案年均复合增长率高达33.7%,而Robotaxi市场的年复合增速更是达到74%。
政策端的推进同样为技术落地扫清了道路。2025年12月,工信部正式公布我国首批L3级有条件自动驾驶车型准入许可,两款车型在北京、重庆指定区域开启上路试点,标志着中国L3级自动驾驶从测试阶段迈入商业化应用的关键一步。随后,2026年3月落地的L3责任认定国标明确:自动驾驶激活状态下的事故由车企承担,并强制配备“黑匣子”数据记录系统。责任边界的清晰化,意味着L3级自动驾驶的商业化在法律层面获得了可操作性。
简单来说,物理AI之所以能够迅速成为行业共识,根本原因在于它触及了一个基本命题:真正的自动驾驶,不可能建立在无穷列举场景的穷举法之上,只能依靠对物理世界运行规律的理解和推演。当然,从蓝图到现实之间仍然有着不容回避的挑战。物理AI需要海量真实物理数据、高算力芯片、多传感器融合以及大规模模型训练与推理,单车硬件加软件成本远超传统智能辅助驾驶,向售价15万元以下主流车型的下探仍有难度。
与此同时,系统越复杂、稳定性越差——这恰恰也是从辅助到自主的必经阵痛。而物理AI具备自主决策能力所带来的安全与合规风险,同样需要监管与企业共同构建可验证、可追责的技术与制度框架。但当AI不再只是“看”这个世界,而是开始在数字空间里理解重力、惯性和因果联系,人类距离那个“车比自己开得更好”的未来,确实又近了一步。
热门跟贴