为什么很多车企都青睐VLA模型？|vla模型|推理|新论文|神经网络|算法

[首发于智驾最前沿微信公众号]就在最近，小鹏发布了第二代视觉—语言—动作（VLA）模型。其实随着自动驾驶技术的发展，行业正处于从手工规则体系向物理世界大模型的深层跨越。早期的自动驾驶方案高度依赖于模块化的架构设计，将感知、预测与规划拆分为独立的环节。

但随着行驶场景复杂度的增加，模块间信息流失和规则局限导致的瓶颈日益凸显。其实不仅仅是小鹏，理想、吉利等车企也都将VLA模型用于量产车，为何那么多车企都依赖VLA模型？

相较于模块化，VLA有何优势？

传统的自动驾驶架构采用级联设计。传感器采集数据后，由感知模块进行目标检测与语义分割，输出物体标签；随后，预测模块计算周围参与者的可能轨迹；规划模块再根据预设的数学模型生成车辆的行驶路线。

在这种模式下，任何前端感知的微小误差都会在后续环节中被放大，且由于各模块之间采用的是预定义的手工接口，系统很难捕捉到环境中微妙的非结构化信息。

模块化架构示意图，图片源自：网络

VLA模型的引入彻底改变了这一流程。视觉—语言—动作模型（Vision-Language-Action,VLA）本质上是一种端到端的智能系统，它通过统一的神经网络将多模态感知与高层逻辑推理、底层动作执行融为一体。

其核心价值是将原本相互独立的感知模块（看）、逻辑模块（想）与执行模块（做）在同一个语义空间内完成了对齐。与传统的自动驾驶系统相比，VLA不仅能够识别环境中的像素点或几何结构，更能理解这些信号背后的语义逻辑。

VLA模型由视觉编码器、大语言模型（LLM）骨干网络以及动作解码器三个核心组件构成。视觉编码器将摄像头采集的多视角图像转化为高维的特征向量，这些向量包含了环境的空间布局与物体特征；LLM骨干网络则作为决策中心，利用预训练过程中积累的海量世界知识对视觉特征进行逻辑加工；动作解码器则将这些抽象的推理结果转化为如转向角度、加减速数值等具体的物理动作。

VLA架构示意图，图片源自：网络

这种一体化的映射方式使得系统能够以一种更接近人类认知的方式来处理驾驶任务。在人类驾驶过程中，大脑并不会先在意识里标出每一个行人的精确坐标再进行计算，而是基于对场景的整体理解（如“这个行人可能要过马路”）直接产生避让动作。VLA模型通过共享的Transformer架构，对语言、视觉和动作模态进行协同编码，构建了统一的语义空间，实现了从感知理解到动作决策的无缝衔接。

语言转译重要吗？

看到诸多文章介绍小鹏第二代VLA模型时，都提及其去掉了“语言转译”这一环节，那语言转译到底有什么作用？对于自动驾驶来说重要吗？

所谓语言转译，是指将视觉信号“翻译”成自然语言描述（例如“前方路口有交警在指挥”），然后再根据这段文字描述推导出动作指令。这种设计在早期是为了借用大语言模型的逻辑推理能力，但随着技术向量产端推进，其弊端也愈发明显。

自然语言虽然适合表达抽象逻辑，但在描述极其复杂的三维物理世界时，其精度可能不足。将高维的、连续的视觉流压缩成离散的文字标签，不可避免地会丢失大量的空间细节和运动趋势。

此外，在VLA的训练中，研发人员需要为海量的视频数据配上详尽的人工旁白，告诉模型画面中发生了什么，以及为什么要做这个动作。这种“保姆式”的监督学习不仅成本高昂，且标注的速度远远无法满足模型进化的需求。

图片源自：网络

小鹏第二代VLA模型之所以拆掉语言这根“拐杖”，转向了更极致的自监督学习模式，是因为在这种体系下，模型可以直接从原始视频和真实的驾驶轨迹中学习，只要有视频输入和对应的物理动作输出，模型就能自主学习其中的因果关系，无需人工中间介入。

去语言化还可以大幅提升系统的实时性。在自动驾驶中，毫秒级的延迟决定了安全性。VLA模型因为存在多步推理（视觉->语言->动作），计算链路长，有时难以满足毫秒级的响应要求。若将视觉信号直接映射为动作，则可以消除中间解码和生成的耗时。

为了实现这一目标，动作的表征方式也将发生变化，将连续的轨迹预测转化为离散的动作Token，并整合进大模型的词表，是目前可行的路径之一。通过这种方式，动作生成就像语言预测下一个单词一样，能够充分复用大模型已有的序列建模能力。

这种从“语言理解”向“物理直觉”的转变，实际上是自动驾驶向更高级智能形式的演化。它可以让模型变成一个拥有多年驾龄、通过肌肉记忆进行决策的老司机。

VLA的优势在哪里？

自动驾驶的技术发展，已经让自动驾驶系统在高速路或城市路段有了较好的表现，现在最难处理的其实是“长尾场景”。所谓长尾，是指那些在正常行驶中极少出现、难以通过穷举规则覆盖的极端情况，像是马路上突然出现的异形掉落物、复杂的施工路障、交警不规范的手势指挥等都属于长尾场景。

在传统架构中，遇到此类未见过的场景，感知模块可能会报错，或者规控模块会因为没有匹配的规则而采取僵硬的紧急制动。

VLA模型的优势在于它将“理解”引入驾驶决策。基于大规模预训练的大模型拥有强大的知识库和情景理解能力。举个例子，即便模型没有在训练集中见过某种特定形状的施工围栏，但它通过在互联网海量数据中学习到的通识知识，能够理解“红白相间的物体通常代表障碍物”或者“身穿反光背心的人通常是工作人员”。

图片源自：网络

这种基于知识的决策模式，使得VLA能够处理复杂的交互逻辑。在潮汐车道或无图小路等场景下，VLA可以分析周围车辆的意图和环境的细微变化，做出更拟人化的规划。它不会仅是避让障碍物，而是能够理解“此时前车减速可能是为了礼让行人”，从而提前做出预判，避免了传统系统常见的频繁急刹或顿挫感。

VLA模型还具备“双系统思维”的能力。它既能通过快速路径实现类似于本能的驾驶反应（快思考），也能在遇到极端复杂情况时，调动增强的推理逻辑进行深度分析（慢思考）。这种灵活性确保了系统在保证效率的同时，拥有处理高难度决策的上限。

为了解决长尾数据的稀缺性，有些技术方案还引入了“世界模型”（World Models）。世界模型可以被看作是自动驾驶系统的“模拟大脑”，它能够预测动作对未来的影响，并仿真出大量极端的、在现实中难以收集的危险场景进行自我训练。VLA与世界模型的结合，可以让自动驾驶从“在现实中试错”转向“在想象中进化”。

这种能力的提升，意味着自动驾驶系统正在从一个“称职的司机”向“智慧的驾驶专家”转变。VLA不仅解决了“怎么开”的问题，更在底层逻辑上解决了“为什么这么开”的理解问题。

VLA落地的难点在哪里？

大模型一般需要拥有数十亿甚至数百亿的参数，要在车载嵌入式平台上实现毫秒级的推理响应，需要非常多的工程优化。

混合专家架构（MoE）可以将模型拆分为多个专业领域的小模块，在每一时刻仅激活最相关的部分专家，可以在不牺牲模型容量的前提下，大幅降低推理时的计算量。理想就将32B的大模型蒸馏为3.2B的MoE架构，成功部署在Thor芯片上。

图片源自：网络

推理步数的压缩也很关键，传统的路径生成需要多次迭代（如Diffusion模型），而通过引入流匹配（Flow Matching）等算法，可以将原本10步的推理过程压缩至2步甚至1步，从而在10Hz的帧率下实现完整的交互响应。此外，混合精度推理（如INT8/FP8/FP4）和底层算子魔改，也可以进一步利用硬件的有效性能。

虽然VLA模型作为“大脑”负责复杂的认知决策，但行业普遍共识是需要保留一个经过严格验证的传统控制系统作为“安全基座”。这种混合架构确保了即使大模型在某些罕见情况下出现幻觉或推理错误，底层的安全网也能守住最后一道防线。

最后的话

VLA的普及标志着自动驾驶数据竞争重心的转移。以前，企业比拼的是人工标注的数据量；而现在，竞争的核心变成了算力储备、世界模型的仿真效率以及对大规模无标签视频数据的利用能力。

VLA从逻辑理解到物理行动的闭环，不仅加速了端到端技术的成熟，也让自动驾驶系统距离真正的“拟人化”更近了一步。随着算法、算力和数据三要素的持续提升，基于VLA架构的物理人工智能将在更广泛的移动场景中展现其价值，重塑未来出行的安全与效率标准。