作者 | 张睿
编辑 |志豪

理想汽车发布新自动驾驶基础模型,李想与基座模型一把手出面详解。

车东西3月18日消息,今日,理想汽车CEO李想与理想汽车基座模型负责人詹锟交流了理想汽车发布的新基础模型。

打开网易新闻 查看精彩图片

▲李想(图左)与詹锟(图右)

理想汽车在NVIDIA GTC 2026上发布的理想汽车下一代自动驾驶基础模型MindVLA-o1,而根据詹锟的介绍,MindVLA-o1以原生多模态MoETransformer为核心,通过五大技术——3D空间理解、多模态思考、统一行为生成、闭环强化学习(Closed-loop RL)和软硬件协同设计(Hardware–Software Co-Design),让自动驾驶看得更远、想得更深、行得更稳、进化更快、部署更高效。

打开网易新闻 查看精彩图片

▲MindVLA-o1基础模型

而李想问詹锟,理想自研的马赫M100芯片能不能“扛得住”最新的模型,詹锟则透露道马赫M100芯片的性能很强,在标准的矩阵层计算任务上比上一代芯片强三倍,同时詹锟觉得到今年年中新模型就将具备一定的思维链能力。

打开网易新闻 查看精彩图片

▲理想汽车基座模型负责人詹锟

同时根据詹锟的说法,MindVLA-o1基础模型正在向具身智能通用模型进化,他表示:“当我们把视觉、语言和行动统一到一个模型中时,它已不再只是自动驾驶模型,而是在逐渐演化为面向物理世界的通用智能体。基于同一套VLA模型,不仅可以控制车辆,也能够扩展到机器人。因此,自动驾驶只是物理AI的起点,未来这类基础模型将驱动新的具身智能范式。”

李想本人也在社交媒体上发文,进一步解读了MindVLA-o1。

打开网易新闻 查看精彩图片

▲李想在社交媒体上发文

李想在视频中还提到了对于AI的看法,他认为AI对所有人都是一个杠杆,必须主动拥抱。

对一家公司而言,如果所在领域里,AI无法创造新需求,往往只能用AI替代人力、降低成本。

但是对于理想汽车这样的企业,李想表示,理想目前布局了汽车、机器人、芯片等领域,目前年收入1000多亿,而全球汽车行业规模超过10万亿,机器人、算力、下一代终端等领域加起来也是几十万亿的市场。

因此,理想汽车思考的不是用AI去替代人,而是把AI这个杠杆用起来,用今天的三万多员工,做到1万亿的收入。

一、VLA方案存在三大挑战效率仍不够理想

自2021年启动辅助驾驶自研以来,理想辅助驾驶技术架构经历了多轮迭代,2025年理想汽车推出了VLA司机大模型,并于8月随理想i8交付正式推送,9月向AD Max用户全量推送。

而詹锟表示,当进一步观察当前业界VLA方案时,理想汽车发现VLA方案仍然存在三个非常关键的挑战:

1、3D空间语言思考和行为之间存在对齐效率不够理想。

詹锟提到在自动驾驶系统中,模型需要同时完成三件事情,理解3D空间、进行语义层面的思考和推理、输出具体的驾驶行为轨迹,如何让这三个过程在同一个隐空间中高效对齐是非常困难的事情。

如果对齐的不够好,就会出现两类问题。第一是语义理解和行为出现了偏差,模型能够理解场景,但最后生成的轨迹并不符合预期。

第二是决策延迟,视觉语言行动之间的传递链路过长,导致反应速度下降。

詹锟举了一个例子,当车辆前方出现了一个行驶较慢的车时,系统不仅需要理解这个场景,还要快速推理,是要立即变道还是持续跟随,而且变道的时候速度应该如何控制。

如果空间理解、语言推理和行为决策对齐效率不够高,最后的生成的轨迹可能就并不是最优,因此需要提升3D空间理解能力,让语义和行为之间对齐精度和整体推理效率进一步提升。

2、长尾场景问题。

詹锟表示,在自动驾驶中很多关键问题都来自极少发生的长尾场景,仅仅依靠真实数据的规模扩展很难覆盖这些场景。

比如山区道路的突发落石、高速上的小动物窜出,这些场景在真实数据中占比较低,但却是用户实际驾驶中可能遇到的风险点。

理想汽车发现必须需要结合合成数据与强化学习,在架构设计初就必须考虑好强化学习的范式特点,通过仿真环境进行大规模的训练,才能让系统真正具备泛化能力和鲁棒性。

3、计算效率和系统成本。

詹锟表示,VLA模型往往包含大规模的语言能力,这会带来非常高的计算和内存开销。

这会带来两方面的问题,一方面如果遇到算力不足的情况,可能影响辅助驾驶使用体验;另一方面,高计算开销也会推高车企的硬件成本,要么导致车型定价上涨,要么压缩其他配置的成本,最终影响用户购车决策。

在车端系统中,如何在有限的计算资源下运行VLA,詹锟认为这是非常现实的问题,未来的方向必须是软硬协同的架构设计,通过联合优化模型架构、推理系统以及硬件能力,才能让VLA真正在车端规模化的落地。

打开网易新闻 查看精彩图片

▲詹锟提出的VLA方案三大挑战

二、基于五大技术 多方面提升自动驾驶性能

为了解决上文提到的三大问题,理想汽车提出了下一代自动驾驶基础模型MindVLA-o1。具体来看,理想汽车自动驾驶基础模型MindVLA-o1有以下五大技术要点:

1、具备3D空间理解能力,使模型看得更远。

在感知层面,理想汽车采用以视觉为核心的3D ViT Encoder(3D视觉模型编码器),用于对真实世界三维结构进行直接建模。詹锟介绍到,3D ViT Encoder并不是简单的将2D图像和3D信息进行拼接,而是在编码阶段直接构建3D的空间表示,使得模型能够更加自然的理解真实的物理世界的空间结构。

打开网易新闻 查看精彩图片

▲3D空间理解技术

在训练过程中,理想汽车同时利用视觉和雷达的数据,雷达提供了准确的三维几何信息,视觉提供了丰富的语义信息,通过自监督训练,模型可以在同一个表示空间中同时学习几何结构和语义信息。

为了进一步提升对环境的理解,理想汽车在训练中引入前馈式3DGS表示(Feedforward 3D Representation),将场景拆分为静态环境与动态物体分别建模,静态环境用稳定的3DGS进行建模,动态环境单独建模运动状态。

在训练过程中,通过下一帧预测(Next-state prediction)作为自监督信号,使模型同时学习深度信息、语义结构与物体运动,最终形成融合了空间结构时间的上下文信息,并将大规模的自监督预训练进行特征提取,因此不仅能够描述当前场景,还能够为后面的决策模型提供高质量的3D视觉表征。

总结来看,3D空间理解能力核心目的是缩短决策的时间,让辅助驾驶在紧急场景反应更快,或者在跟车之类的场景减少顿挫等问题。

2、拥有多模态思考能力,让模型想得更深。

在语言模型承担语义理解、常识知识和交互能力的基础上,理想汽车引入了预测式隐世界模型,核心思想是让模型在预空间中模拟未来。

打开网易新闻 查看精彩图片

▲多模态思考能力

如果直接生成未来真实的图像,计算成本会非常高,因此理想汽车选择在Latent World中进行预测。首先把当前的视觉输入编码成一组Latent World Token,作为当前场景的一个紧凑的表征。然后World Model会基于token预测未来的Latent的状态,通过这种方式,模型可以在隐空间中高效的模拟未来场景的演化过程。

在训练上则分为三个阶段:第一,用海量视频数据预训练Latent World Token(隐世界词元),构建未来表征;第二,在MindVLA-o1中持续世界模型的推演,形成隐空间的未来推理能力;第三,将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。

由此,模型可以对未来的环境状态进行预测,不仅仅能理解当前环境,还能在隐空间中模拟未来发生的可能情况。这个能力对于自动驾驶的决策非常关键,理想汽车称之为多模态思考(Generative Multimodal Thinking)。

总的来看,多模态思考能力让模型能预判下一步应该做什么,来提前规划应对策略,用户的体验自然就更加流畅舒适。

3、形成统一行为生成机制,使模型行得更稳。

在行为层面,理想汽车构建了统一行为生成(Unified Action Generation)机制。

打开网易新闻 查看精彩图片

▲统一行为生成

首先,MindVLA-o1使用VLA-MoE(混合专家模型)架构,并引入专门的Action Expert(动作专家),从3D场景特征、导航目标、驾驶指令等多维输入中提取信息,并结合多模态思考生成高精度驾驶轨迹。

其次,为满足实时性要求,系统采用并行解码(Parallel Decoding),同时生成所有轨迹点,大幅提升效率。

最后,引入Discrete Diffusion(离散扩散)进行多轮迭代优化,类似逐步去噪,确保轨迹空间连续、时间稳定,并符合车辆动力学约束。

这套轨迹生成的机制可以总结为三个点:MOE保证了生成的专业性、Parallel保证了生成的速度、Diffusion保证了生成的轨迹精度。

从具体效果来看,统一行为生成机制让辅助驾驶更“老司机”,可以减少急打方向或急加减速等操作,提升了驾驶的流畅性与乘客的乘坐体验,同时也降低了车辆的能耗与制动损耗。

4、在闭环强化学习框架下,模型实现更快进化。

在模型迭代层面,理想汽车构建了闭环强化学习框架,让模型不仅能从真实数据学习,还能在世界模拟器(World Simulator)中持续探索和优化策略,系统可以在模拟环境下不断尝试新的策略,根据反馈进行策略更新。

打开网易新闻 查看精彩图片

▲闭环强化学习

其中几个关键的组成部分,首先是要确定探索的数据集,理想汽车通常采用人类接管的困难数据集作为探索。其次,要具备一个很好的反馈模型,确认给模型正确的反馈。最后,需要构建良好的世界模引擎来探索不同的场景。

而在整个强化学习框架中,World Simulator的能力实际上直接决定了强化学习的上限。

为此,理想汽车将逐步优化式重建为Feed-forward(前馈)场景重建,使系统能够瞬时生成大规模、高保真驾驶场景,支持大规模并行训练。

同时,结合生成式模型(Generative Models),模拟环境可扩展、编辑并生成全新场景。为支持大规模模拟与训练,理想汽车开发了统一的3D Gaussian Splatting(3D高斯泼溅)渲染引擎和分布式训练框架,渲染速度提升近2倍,整体训练成本降低约75%。

只有在这种效率的提升的情况下,才能真正进行大规模的3DGS分布式的训练,实现真正的低成本高效率的强化学习闭环。

总的来看,闭环强化学习能快速生成各类真实场景与长尾场景,让模型在虚拟环境中反复训练、试错,无需等待真实道路数据采集,缩短模型迭代周期,也就是可以让用户更快的用上新版本。

5、在软硬件协同设计定律下,模型部署更高效。

为解决传统端侧大模型部署耗时长、调试频繁的问题,理想汽车面向端侧大模型的软硬件协同设计定律,将模型结构与验证损失建模,并结合Roofline模型刻画硬件计算能力与内存带宽限制,在模型性能与硬件约束之间建立统一的分析框架。

打开网易新闻 查看精彩图片

▲软硬件协同设计

理想汽车基座模型团队评估了近2000种模型架构配置,在英伟达Orin与Thor平台上完成验证,找到了模型精度与推理延迟之间的Pareto Front(帕累托前沿),可以在给定的计算预算下得出模型的层数、隐藏的维度、MOE的激活比例应该如何组合才能达到性能最优。

詹锟分享了一个观察,在端侧计算资源受限的情况下,更宽且更浅的模型结构往往比传统的深层模型更加有效。通过这一套软硬件协同的设计方案,理想汽车将模型探索的架构探索的时间从数月缩短到了几天,大大提升了端侧VLA的模型设计效率和部署速度。

三、四大核心构建AI框架也可扩展至机器人

同时,理想汽车方面提到,MindVLA-o1是理想汽车面向物理世界智能核心AI框架的重要组成部分,这套AI框架由四大核心模块组成:

1、MindData,统一的VLA数据引擎,负责大规模数据的采集、清洗和自动标注;

2、MindVLA-o1,统一的原生多模态VLA模型,可以理解环境、进行推理,并生成驾驶行为;

3、MindSim,可控的多模态世界模型,用于生成复杂驾驶场景并支持大规模闭环训练;

4、RL Infra(强化学习基础设施),通过奖励模型和策略学习,使系统在仿真与真实环境中自我进化。

打开网易新闻 查看精彩图片

▲AI框架四大核心模块

四部分协同形成完整闭环,使AI能够感知、理解并在物理世界中自主行动,并持续学习。

从结构上看,这套系统如同一个“数字大脑”:感知层对应视觉皮层,推理与规划如前额叶,场景生成似运动皮层,强化学习则类似多巴胺反馈,实现了感知、理解、行动和持续优化的完整闭环。

理想汽车方面表示,车是最大号的机器人,其本质是在构建硅基生命体的躯干与大脑,而该AI框架不仅服务于汽车,也可扩展至机器人及各种物理系统。

另外,理想汽车方面还提到,MindVLA-o1相关的多篇论文已在CVPR、ICLR、ICRA、AAAI等国际顶会上发表。

结语:理想加速AI转型

理想汽车CEO李想曾在多个场合公开表示,理想汽车要转型为“人工智能(AI)企业”。

根据理想汽车2025年全年财报,理想汽车在2025年的研发投入达到113亿元,平均每月投入近10亿元,创历史新高,其中AI相关投入占比50%。

而从理想汽车在NVIDIA GTC 2026上发布的MindVLA-o1自动驾驶基础模型来看,其不仅是在自动驾驶领域的一次技术升级,更是理想汽车向AI企业全面转型的又一重要进程。