[首发于智驾最前沿微信公众号]自动驾驶技术正处于发展的转折点。过去十几年间,行业长期依赖模块化的技术路径,即将驾驶任务拆解为感知、预测、规划和控制四个独立环节。这种结构虽然清晰,但在面对突发状况时(长尾场景),会因规则覆盖不足而表现僵化。
随着大语言模型和视觉语言模型(VLM)的爆发,开发者们意识到,如果车辆能像人类一样拥有常识,理解什么是“潮汐车道”,知道“救护车在后方鸣笛需要避让”,那么自动驾驶的上限将得到极大提升。
然而,当真正将视觉语言模型引入座舱和驾驶系统后,一个新的问题出现了,模型虽然能言善辩,能解释复杂的路况,却无法精准地转动方向盘。这种从“脑子懂了”到“手脚协调”的跨越,正是视觉-语言-动作模型(VLA)被推向台前的主要原因。
视觉语言模型的语义底座与行动短板
视觉语言模型(VLM)在自动驾驶领域打破了感知的天花板。传统的感知算法只能识别如汽车、行人或交通灯等预定义的标签,而对于路边一个形态奇特的充气广告人,或者地面上一摊反光的水渍,传统模型将无法给出合理的解释。
视觉语言模型通过在互联网数据上进行预训练,获得了一种近乎于人类的常识推理能力。它不再仅将像素点分类,而是能够理解场景中的深层逻辑。比如,它能识别出前方车辆开启的双闪灯意味着故障,并建议后车进行绕行,这种基于语义的推理能力是传统规则算法难以企及的。
虽然视觉语言模型在环境建模和交互决策建议方面表现优异,但它在直接驱动车辆运行上依旧存在着先天不足,这主要体现在其输出逻辑与物理世界控制指令之间的脱节上。目前的视觉语言模型大多是为文本生成而设计的,其输出结果一般是自然语言,比如“我看到前方有行人,我应该减速”。
图片源自:网络
然而,对于车辆底盘而言,它需要的是具体的制动压力、转向扭矩或者是精确到分米的行驶轨迹点。这种从文本描述到物理操作的转换过程,需要一个额外的翻译模块。这个模块一旦出现理解偏差,或者因为模型之间无法进行联合优化,就会导致信息在传递中丢失。这将造成了一个尴尬的现象,模型可能在语言层面正确识别了危险,但在实际操作中却未能及时做出反应,这种现象被称为行动鸿沟。
此外,视觉语言模型的实时性也是一大硬伤。在高速行驶的自动驾驶场景中,毫秒级的延迟就可能决定安全与否。主流的视觉语言模型通常拥有极大的参数量,在处理高分辨率图像并生成连贯文本时,其推理延迟将达到数百毫秒甚至秒级,这远远无法满足每秒需要进行数十次计算的实时控制需求。
由于视觉语言模型架构本身并不是为了输出高频、精确的控制信号而优化的,因此在很长一段时间里,其只能作为一种慢思考的插件,挂载在现有的自动驾驶系统旁提供参考,而无法真正主导驾驶过程。这种被动性限制了它在复杂动态环境下的应用潜力,从而促使研究者们寻求一种能够将理解与行动深度耦合的新技术路径。
视觉语言动作模型的一体化升级
视觉-语言-动作模型(VLA)的出现,本质上是将车辆的认知系统与执行系统进行了一次彻底的物理融合。它不再把驾驶看作是先理解场景再执行动作的两个独立步骤,而是将其视为一个统一的、从传感器输入到执行器输出的端到端学习过程。
VLA框架示意图,图片源自:网络
在这种技术框架下,视觉特征、语言指令和驾驶动作被编码到同一个高维特征空间中进行交互。这意味着模型在学习如何识别红绿灯的同时,也在学习遇到红灯时应该如何调节刹车踏板。这种深度的耦合使得模型能够从海量的数据中提取出超越简单规则的驾驶技巧,从而表现出更加类人的驾驶行为。
想实现这一融合,关键技术之一是动作的标记化处理。受谷歌机器人模型RT-2的启发,自动驾驶领域的VLA模型尝试将车辆的如转向、加速、制动等驾驶动作转化为一种特殊的词汇表。在这种设定下,生成一段平滑的变道轨迹,在模型看来与写出一个句子并无本质区别。
通过将连续的物理空间离散化为一系列动作标记,VLA模型能够直接利用大型语言模型的自回归特性来预测接下来的驾驶行为。这种方法的精妙之处在于,它让模型在做出动作预测的同时,还能附带输出这一动作背后的逻辑理由,极大地提升了系统的可解释性。举个例子,当车辆突然刹车时,它不仅能执行动作,还能同步反馈是因为看到了盲区内窜出的外卖车,这种透明度对于建立用户对自动驾驶的信任至关重要。
在VLA的驱动下,自动驾驶车辆表现出了前所未有的泛化能力。传统的系统在进入一个从未见过的陌生城市或遇到罕见的特殊路障时,由于缺乏预设规则,会表现得不知所措甚至原地停滞。而VLA模型凭借其预训练阶段习得的通用世界知识,可以根据环境中的语义线索进行即时推理。
例如,当它在路边看到一个写着临时施工的告示牌时,即便系统没有预装该路段的地图信息,它也能通过阅读牌子上的文字并结合视觉观察,自主规划出一条绕行路径。这种对未知环境的强适应性,被视为从辅助驾驶向全自动驾驶跨越的关键一步。
动作标记化与物理一致性的技术平衡
尽管将动作转化为语言标记为模型的一体化扫清了障碍,但在自动驾驶这种对精度要求极高的场景中,如何确保生成的标记能够转化为平滑且符合车辆动力学的轨迹,依然是一个巨大挑战。
如果仅仅是简单地离散化,模型输出的动作可能会出现抖动,导致车辆行驶不顺畅。为了解决这一问题,行业内涌现出了多种轨迹生成的技术方案。其中一种典型做法是利用动作码本,将车辆可能行驶的二维空间划分为精细的网格。
例如,在ReflectDrive等研究中,开发者将驾驶空间设定为以车辆为中心的一个矩形区域,并以固定分辨率进行切分,从而生成数以百计的备选标记。通过这种方式,模型输出的每一个标记都对应着物理空间中一个真实的坐标点,从而保证了动作生成的物理落地。
然而,离散标记无法捕捉到复杂交通场景中的细微连续变化。因此,另一种更为先进的技术是将扩散模型引入VLA的动作生成中。扩散模型的强项在于它能够通过迭代去噪的过程,从概率分布中提取出最符合当前上下文的连续轨迹。
在这种架构下,大型语言模型骨干负责定性,即决定车辆应该左转还是右转,而扩散模型负责定量,即计算出具体的行驶路径曲线。理想汽车在MindVLA架构中就应用了这种组合,其模型先生成语义层面的动作标记,再通过扩散解码器将其转化为经过优化的轨迹,这使得车辆在拥堵路口博弈或狭窄车位泊车时,能够展现出极其丝滑的操作。
图片源自:网络
为了进一步确保安全性,还有技术开发了针对动作标记的反射修正机制。在模型输出初步的动作序列后,系统会引入一个专门的安全评分模块,利用车辆动力学约束和障碍物预测信息对该序列进行快速质检。
如果发现预测的轨迹点有碰撞风险,模型会基于离散化的动作码本在局部范围内进行高效搜索,寻找安全的替代锚点,并要求扩散模型以此为基准重新生成周边轨迹。这种循环往复的自我审视过程,模拟了人类驾驶员在做出决定后发现不妥并迅速修正的心理过程,极大增强了系统在极端情况下的生存能力。
认知双系统理论在量产中的实践
在将庞大的VLA模型推向车载平台的过程中,将面临一个残酷的现实,那就是车载芯片的算力和功耗预算是极为有限的。尽管英伟达推出了Thor这样算力高达2000 TOPS的芯片,但要流畅运行一个拥有数十亿参数且需要高频响应的VLA模型,依然捉襟见肘。
为了解决这个问题,业界引入了心理学中的认知双系统理论。这一理论认为人类的大脑存在两个系统,系统1是快系统,负责本能、直觉和下意识的快速反应;系统2是慢系统,负责逻辑、分析和复杂的决策推理。在自动驾驶的VLA架构中,开发者们通过巧妙的设计重构了这一模型。
图片源自:网络
具体的实现方式是构建一个异构的推理模型。系统2由完整的大语言模型组成,它像一个资深的教官,负责观察全局路况、解析复杂的交通规则以及制定长期的驾驶策略。由于它非常重,通常以较低的频率运行(例如每秒运行一两次)。
而系统1则是一个轻量级的动作执行模块,它实时接收系统2输出的深层特征作为指导,并结合最新的传感器数据,以极高的频率(如100Hz)输出具体的控制指令。这种快慢结合的模式,既保留了大模型的智慧,又确保了车辆在遭遇紧急切入或行人横穿时,能像人类本能一样迅速制动,而不必等待大模型漫长的思考时间。
为了进一步提升效率,混合专家架构(MoE)被证明是VLA走向实用的利器。在MindVLA等先进模型中,并非所有的神经元在驾驶时都同时工作,而是将模型拆分为多个领域的专家模块。比如有的专家擅长处理高速巡航,有的擅长处理雨天感知,有的则专精于狭窄路口的博弈。
在实际运行时,路由算法会根据当前路况,动态激活最相关的少数专家模块。这种稀疏激活的技术,使得模型在拥有巨大知识容量的同时,实际计算消耗可以维持在较低水平。结合稀疏注意力机制和并行解码技术,目前的VLA模型已经能够实现在车载端的毫秒级响应,这标志着认知驱动的自动驾驶正正式从学术研究转向量产工程。
视觉语言动作模型在真实世界的演进逻辑
在实际部署中,VLA模型的训练数据不再局限于简单的驾驶视频。为了让模型真正理解语言与动作之间的因果关系,研究者们开发了诸如Action Dreaming(动作梦境)这样的创新方法。
在传统的训练中,模型看到的是“司机看到红灯于是停车”的单一结果。然而,为了让模型理解指令的边界,开发者会在模拟器中创造出各种虚假的未来。如对于同一个视觉场景,给模型输入“直行”和“左转”两种指令,并让它预测两种不同的物理后果。通过这种反事实推理的训练,VLA模型能够建立起深层的语言-动作对齐,从而在现实中更准确地执行人类的自然语言指令。
图片源自:网络
这种对齐能力的提升,催生了一批具有代表性的工业界项目。Wayve推出的LINGO-2是首个在公共道路上测试的闭环VLA模型,它能够边开车边解说,通过实时语音反馈其为何减速、为何绕行,从而让车内乘客能够实时洞察车辆的思维逻辑。
而理想汽车推出的MindVLA,则更进一步地强调了空间智能的整合。通过自主研发的3D Gaussian(3D高斯)表征技术,MindVLA能够将复杂的城市街道转化为一种可计算的、具备几何精确度的三维语义空间。在这种空间内,动作的生成不再是盲目的黑盒预测,而是基于对障碍物物理边界的深刻理解。这使得它即便在无图的陌生车库内,也能凭借纯粹的视觉和语义推理,像老司机一样找到车位并完成停放。
VLA模型在自动驾驶领域的意义远不止于驾驶任务本身。它实际上是在构建一个通用的物理世界代理。随着这一技术的日趋成熟,车辆将从一个单纯的代步工具进化为一个具备理解和执行能力的智能体。
未来,用户可能不再需要设置复杂的导航点,只需随口一句“去最近的超市买点面包”,VLA驱动的车辆便能通过搜索兴趣点、理解交通流、规划路线、规避风险,并最终准确地停在超市门口。这种从规则驱动到语义认知,再到物理行动的闭环,不仅解决了自动驾驶的长尾问题,更开启了物理人工智能的新时代。
总结与未来展望
视觉语言动作模型(VLA)在自动驾驶中的崛起,标志着人工智能从纯粹的信息处理向物理实体交互的质变。相比于视觉语言模型(VLM),VLA的核心价值在于它消除了语义理解与物理执行之间的断层,通过统一的端到端框架,实现了感知、决策与控制的深度集成。这一跨越使得自动驾驶车辆能够摆脱对高精地图和繁琐手工规则的依赖,转而依靠通用的常识和实时推理来处理复杂多变的现实环境。
热门跟贴