来源:市场资讯

(来源:Xauto报告)

打开网易新闻 查看精彩图片

架构升级成为今年自动驾驶赛道的一个关键词。

今年以来,蔚来推送世界模型2.0、小鹏推送第二代VLA、Momenta推出Momenta R7强化学习世界模型,在前几天举办的NVIDIA GTC 2026大会上,理想发布了下一代自动驾驶基座模型MindVLA-o1。

理想汽车基座模型负责人詹锟在演讲中详细地介绍了新一代架构,随后,理想汽车创始人李想又与詹锟进行了一场生动的对话。

让我们得以对理想下一代自动驾驶架构的搭建和思考有了更多了解。

01

自动驾驶架构再升级,引入3D ViT

詹锟介绍,自动驾驶架构进入端到端之后,才算是真正的AI系统。但早期的端到端属于低阶智能,类似于昆虫具备的智能,本质是通过学习模仿来做事情。

因此,想让自动驾驶系统有好的表现,就需要喂给它大量数据进行模仿学习,然而现实世界之复杂,长尾场景难以穷尽,靠吃数量来学习,显然无法完全覆盖。

这就是为什么,当前第一梯队辅助驾驶系统在常规城市路况下表现都比较不错,但在长尾场景中,依然会暴露各种各样的问题,远远不如人类司机。

那么如何让自动驾驶系统从模仿学习,进化到理解交通场景?

在端到端的基础之上,各家技术架构开始分化。詹锟介绍,端到端中间加了Language语义推理,就成了VLA,中间加了未来图像想象,就成了世界模型。

去年的英伟达GTC大会上,理想推出VLA架构。一年沉淀下来,理想智驾整体确实有很大进步,但很快又到了一个瓶颈期。在Xauto智驾榜30个考点中,理想在窄路通行、三点式掉头等难度较高场景依然无法通过。

打开网易新闻 查看精彩图片

面对这样的现状,李想提出了一个思考。

人类开车看上去没那么难,每个普通人都能把车开得又快又稳,但全世界最顶尖的企业砸了几千亿进去,自动驾驶仍然进展缓慢。问题到底出在哪?

经过总结,理想认为,过去一直在教AI做成年人的事,但从来没让它当过小孩。

人类在0到6岁的阶段学会了走路,学会了扔球、接球。这看起来只是简单的动作,但实际上已经帮助孩子建立了对三维物理空间的理解。

人类能精准测距、稳定驾驶,是因为“3D预训练”在人类6岁前就完成了。

今天所有的端到端系统本质上都是“看2D视频学开车”,更像是一个人坐在电脑前看了十万小时行车记录仪,然后直接上路。

此前被行业津津乐道的BEV、OCC都存在着短板,BEV把世界从俯视角拍扁,从而丢失了高度信息,OCC虽是3D,但是缺少语义信息。

理想认为,物理AI缺的不是更大的模型、更多的数据,而是一个能真正理解3D世界的视觉基础。

为了解决这个问题,理想引入了原生3D ViT,也就是三维视觉编码器。

ViT(Vision Transformer),是基于Transformer的主干网络,具备全局注意力的特性,能提取出更优秀的全局上下文特征,是大模型时代的主流。

理想介绍,3D ViT是让模型一开始就工作在真实的三维世界里,以高分辨率多视角视觉为核心,在编码阶段直接完成对3D空间几何和语义的统一理解,包括空间结构、位置关系、语义信息等一次完成。

那么,模型不只是看见画面,而是理解世界。

在这个体系下,激光雷达的角色变了,它不再是感知的核心,而更像一把高精度的尺子,为视觉提供几何标定和近场空间约束。

李想表示,在统一建模下,3D ViT可以稳定感知并推理到500米以上的空间范围。

这里想提一个点,最近华为将旗下多款车型升级到了更高精度的896线激光雷达,或许也是基于同样的思考,为自动驾驶模型描绘更高精度的物理世界。

既然3D ViT有诸多优势,理想为何此时才开始引入其自动驾驶架构?谈及这个问题。

詹锟表示,因为3D ViT对车端推理算力提出了极高的要求,理想汽车自研的马赫100芯片,单颗算力达到1280TOPS,自研芯片的落地为3D ViT部署提供基础。

02

五大核心技术点,最新架构解读

了解了理想汽车新一代自动驾驶架构的核心变化,我们再来全面了解一下其核心技术点。

理想汽车下一代自动驾驶架构的名称是MindVLA-o1。

这个架构以原生多模态MoE Transformer为核心,有五方面核心技术点,包括3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计。

打开网易新闻 查看精彩图片

在感知层面,理想汽车采用以视觉为核心的3D ViT Encoder(3D视觉模型编码器),并利用激光雷达点云作为三维几何提示,引导模型理解真实空间结构,使其同时具备语义理解与三维感知能力。

同时引入前馈式3DGS表示(Feedforward 3D Representation),将场景拆分为静态环境与动态物体分别建模,并通过下一帧预测作为自监督信号,使模型同时学习深度信息、语义结构与物体运动,最终形成融合空间结构与时间上下文的高质量3D表示。

具备3D空间理解能力,使模型看得更远。

打开网易新闻 查看精彩图片

在思考层面,自动驾驶既要理解当前环境,也要预测未来几秒的场景演化。

在语言模型承担语义理解、常识知识和交互能力的基础上,理想汽车还引入了预测式隐世界模型,在隐空间中高效模拟未来。

训练分三阶段:

第一,用海量视频数据预训练Latent World Token(隐世界词元),构建未来表征;

第二,在MindVLA-o1中持续世界模型的推演,形成隐空间的未来推理能力;

第三,将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。

由此,模型不仅能理解当前场景并进行逻辑判断,还能在隐空间中提前“想象”未来画面,将驾驶决策具象化。

理想汽车将这种能力定义为多模态思考。拥有多模态思考能力,让模型想得更深。

打开网易新闻 查看精彩图片

在行为层面,理想汽车构建了统一行为生成(Unified Action Generation)机制。

首先,MindVLA-o1使用VLA-MoE(混合专家模型)架构,并引入专门的Action Expert,从3D场景特征、导航目标、驾驶指令等多维输入中提取信息,并结合多模态思考生成高精度驾驶轨迹。

其次,为满足实时性要求,系统采用并行解码(Parallel Decoding),同时生成所有轨迹点,大幅提升效率。

最后,引入Discrete Diffusion(离散扩散)进行多轮迭代优化,类似逐步去噪,确保轨迹空间连续、时间稳定,并符合车辆动力学约束。

形成统一行为生成机制,使模型行得更稳。

打开网易新闻 查看精彩图片

在模型迭代层面,理想汽车构建了闭环强化学习框架,让模型不仅能从真实数据学习,还能在世界模拟器中持续探索和优化策略。

为此,理想汽车将传统逐步优化式重建升级为Feed-forward(前馈)场景重建,使系统能够瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。

同时,结合生成式模型,模拟环境可扩展、编辑并生成全新场景。

为支持大规模模拟与训练,理想汽车开发了统一的3D Gaussian Splatting(3D高斯泼溅)渲染引擎和分布式训练框架,渲染速度提升近2倍,整体训练成本降低约75%,实现低成本、高效率的强化学习闭环。

在闭环强化学习框架下,模型实现更快进化。

打开网易新闻 查看精彩图片

为解决传统端侧大模型部署耗时长、调试频繁的问题,理想汽车提出面向端侧大模型的软硬件协同设计定律,将模型结构与验证损失建模,并结合Roofline模型刻画硬件计算能力与内存带宽限制,在模型性能与硬件约束之间建立统一的分析框架。

理想汽车基座模型团队评估了近2000种模型架构配置,在英伟达Orin与Thor平台上完成验证,找到了模型精度与推理延迟之间的Pareto Front(帕累托前沿),将架构探索时间从数月缩短至数天,大幅提升端侧VLA模型的设计与部署效率。

在软硬件协同设计定律下,模型部署更高效。

03

根据理想透露的信息,新一代自动驾驶架构量产时间或在今年二季度,首发落地车型是全新理想L9。

李想此前介绍称,单颗马赫100的有效算力就是英伟达Thor U的3倍。全新理想L9还准备了一个顶配版L9 Livis,这个版本将搭载两颗马赫100芯片。

另一个值得关注的地方是,主流自动驾驶玩家都在向世界模型靠拢,通过理想对于3D ViT的介绍也可以看到,理想也在试图让模型真正理解3D世界。

此外,行业的共识是,自动驾驶只是物理AI落地的一个关键场景,对于自动驾驶的探索,不仅服务于汽车,也可扩展至机器人及各种物理系统。

因此,打造一个通用物理AI基座模型,也是当前车企和智驾公司研发投入的重点。

打开网易新闻 查看精彩图片