这是对国海证券汽车行业专题报告《VLA和世界模型-通往高阶智能驾驶之路》主要内容的详细总结:

报告核心主题:探讨VLA(Vision-Language-Action)模型和世界模型(World Model)作为推动高阶智能驾驶(L3及以上)发展的关键技术路径,分析其定义、特点、产业玩家布局、技术挑战、发展趋势。

核心结论:

  1. VLA和世界模型是互补而非对立的技术路径,共同构成高阶智驾的核心能力。
  2. 产业玩家在实现端到端能力后出现分化:部分侧重VLA路径(融合语言交互),部分侧重世界模型路径(强化环境预测与仿真)。
  3. 数据闭环(数据飞轮)和安全性能(MPA/MPI)是核心竞争壁垒
  4. 技术融合趋势明显,VLA引入强化学习与仿真,世界模型扩展语言交互。
  5. 维持辅助驾驶行业“推荐”评级,智驾能力成为车企估值分化关键。

详细内容分述:

一、 VLA模型:多模态融合驱动,重塑人车交互与决策控制

  1. 定义与特点:
  • 定义:端到端多模态AI架构,融合视觉输入(图像/视频)和自然语言指令,直接生成可执行的物理动作(驾驶控制),实现感知-理解-控制闭环。
  • 特点:

多模态融合:结合视觉语义与语言指令,增强场景理解与交互能力。

语义推理与泛化:支持复杂场景的语义推理和长尾问题处理。

可解释性提升:通过语言输出解释驾驶决策(思维链CoT),解决“黑盒”问题。

2.技术演进与核心模块:

  • 演进阶段:Pre-VLA(语言仅解释)→ 模块化VLA(语言参与规划)→ 统一端到端VLA(单一网络输出控制/轨迹)→ 推理增强型VLA(长时记忆、链式推理)。
  • 核心模块:

视觉编码器:如DINOv2, CLIP,结合BEV/LiDAR融合。

语言处理器:大语言模型(LLaMA, Qwen, GPT等),常通过LoRA轻量化。

动作解码器:自回归token、扩散规划器、分层控制器(高层策略→底层控制如PID/MPC)。

3.进阶能力:

  • 短期:人机交互升级(语音控车、任务拆解)、理解能力增强(OCR、文字识别)、输出透明化(决策解释)。
  • 中长期:AI驱动的数据闭环(世界模型仿真、强化学习)、规模法则(Scaling Law)持续生效、车端芯片与云端模型协同升级。

4.产业玩家实践:

  • 理想汽车:

自研MindVLA模型(融合快慢思考),具备空间理解、思维、沟通记忆、行为能力。

基于Thor-U/Orin-X平台量产部署,支持语言控制驾驶,2025年9月OTA全量推送AD MAX车主。

发展路径:规则算法 → BEV无图NOA → E2E+VLM → MindVLA。

依托云端统一世界模型(融合重建与生成技术)进行强化学习。

  • 小鹏汽车:

采用“VLA+OL”云端基模,通过蒸馏技术部署车端轻量化VLA模型(XVLA)。

定位为“物理AI终端通用模型”(赋能汽车、机器人、飞行汽车)。

构建“运动型大脑+增强型小脑”架构,强化学习驱动自我进化。

2025年9月OTA推送至G7 Ultra,新增人机共驾模式。

开发世界模型作为云端模型工厂一环,支持强化学习奖励模型构建。

  • 元戎启行:

发布DeepRoute IO 2.0(2025.8),搭载自研VLA模型。

以“多模态+多芯片+多车型”适配为核心,支持激光雷达与纯视觉方案。

已达成5个定点,首批量产车将进入市场。

核心功能:空间语义理解(盲区预判)、异形障碍物识别、文字引导牌理解、记忆语音控车(逐步释放)

二、 世界模型:数据闭环驱动,增强环境感知与仿真可靠性

  1. 定义与核心价值:
  • 定义:以视觉与运动数据为基础,通过生成式建模预测环境动态与行为后果,强化辅助驾驶系统在仿真和交互中的可靠性。
  • 核心能力:反事实推理 (Counterfactual Reasoning):回答“What if”问题,预测未见决策的后果,超越数据限制。
  • 价值:

难例场景构建:生成式技术大幅提升高密度Corner Case覆盖(如华为WEVA提升1000倍)。

时空预测能力:高精度预测环境变化和车辆运动。

数据利用优化:自监督学习减少人工标注依赖。

安全验证:提供受控环境评估系统安全。

2.主流架构:

  • RSSM (Recurrent State-Space Model):生成式预测,状态分解为随机+确定性成分,平衡适应性与连续性(2019)。
  • JEPA (Joint-Embedding Predictive Architecture):表征式预测(如Meta V-JEPA),预测未来状态表征而非像素细节,计算效率高(2023提出,2025 V-JEPA2)。
  • 演进方向:从“感知模仿”向“认知思考”演进,通过自监督学习提取信息,应用于场景生成、规划控制策略优化。

3.产业玩家实践:

  • 华为(鸿蒙智行):

乾坤ADS 4.0采用WEWA架构(World Engine + World Action Model)。

WE (World Engine):云端难例扩散生成模型,AI生成高密度难例场景,实现“人采实路数据”向“AI合成数据”跨越;构建安全优先的强化学习机制。

WA (World Action Model):车端全模态感知(视觉、听觉、触觉等),构建智驾原生基模型,采用MoE多专家架构按场景调用能力。2025年4月发布,9月规模推送。

  • 蔚来汽车:

自研世界模型NWM,是全量理解信息、生成场景、预测未来的多元自回归生成模型。

核心能力:空间理解(多模态推测环境)、时间建模(长期推演)、数据利用(自监督)。

2025年5月首个版本推送,实现“停车场自主寻路”等功能,融合了VLA特征(输入输出多模态)。

  • Momenta:

R6飞轮大模型(2025下半年推出):数据驱动、基于强化学习的一段式端到端模型,融合感知与规划,具备长短期记忆能力。

保留DLP模型(短期记忆)快速学习新数据,形成双模型架构。

强调数据驱动闭环(Flywheel)和闭环自动化(CLA)工具链,高效利用海量数据(合作量产车型超130款)。

  • 海外先验 (Wayve):

GAIA-1 (2023.6):生成式世界模型,“视频+文本+动作”输入,自回归预测,理解驾驶概念,生成逼真场景。

GAIA-2 (2025.3):场景能力升级,覆盖多国地理、时间、天气、道路类型,支持多视角同步生成。

三、 融合互补,共筑安全与体验新壁垒

  1. 路径分化与互补:
  • VLA路径:侧重语义融合与交互控制(理想、小鹏、元戎启行)。核心挑战:资源效率(集成复杂度、算力能耗、实时推理)、稳健安全(多模态对齐、泛化评估、鲁棒性伦理)。
  • 世界模型路径:侧重环境预测与仿真可靠性(华为、蔚来、Momenta)。核心价值:反事实推理、难例生成、安全验证。
  • 融合趋势:VLA引入强化学习与仿真(如理想、小鹏布局世界模型);世界模型扩展语言交互与多模态理解(如蔚来NWM融合VLA特征)。

2.核心壁垒:数据与安全

  • 数据飞轮效应:有效数据量决定模型迭代上限。头部车企凭借高活跃用户积累海量真实里程数据(华为>35亿公里,特斯拉>45亿英里,理想12亿公里),结合AI合成数据(约10%),通过RLHF驱动高效迭代。

  • 安全性能量化:

MPA (平均事故里程):安全底线。头部水平已达人类驾驶安全水平的6倍以上(如Momenta配套方案达6.7倍),持续优化。

MPI (平均接管里程):体验天花板。衡量用户接管频率,决定用户体验和商业效率(如特斯拉FSD 13.2 MPI达213英里)。技术迭代显著提升MPI(理想端到端+VLM提升显著)。

四、风险提示:

  • 辅助驾驶政策法规推进不及预期。
  • 数据安全与隐私保护监管趋严。
  • 技术可靠性与长尾场景安全问题导致的信任与合规风险。
  • 车企销量与技术搭载不及预期。
  • 行业竞争加剧导致技术研发投入承压。

总结:该报告深入分析了VLA和世界模型作为高阶智能驾驶双引擎的技术原理、产业实践、优劣势及融合趋势,强调数据闭环和安全性能是核心竞争壁垒,看好行业在政策和技术驱动下的发展前景,并给出了具体的风险提示。