马赫100芯片支撑、首搭全新L9

新浪财经

2026-03-25 15:42 ·河北 ·优质财经领域创作者

来源：市场资讯

（来源：Xauto报告）

架构升级成为今年自动驾驶赛道的一个关键词。

今年以来，蔚来推送世界模型2.0、小鹏推送第二代VLA、Momenta推出Momenta R7强化学习世界模型，在前几天举办的NVIDIA GTC 2026大会上，理想发布了下一代自动驾驶基座模型MindVLA-o1。

理想汽车基座模型负责人詹锟在演讲中详细地介绍了新一代架构，随后，理想汽车创始人李想又与詹锟进行了一场生动的对话。

让我们得以对理想下一代自动驾驶架构的搭建和思考有了更多了解。

01

自动驾驶架构再升级，引入3D ViT

詹锟介绍，自动驾驶架构进入端到端之后，才算是真正的AI系统。但早期的端到端属于低阶智能，类似于昆虫具备的智能，本质是通过学习模仿来做事情。

因此，想让自动驾驶系统有好的表现，就需要喂给它大量数据进行模仿学习，然而现实世界之复杂，长尾场景难以穷尽，靠吃数量来学习，显然无法完全覆盖。

这就是为什么，当前第一梯队辅助驾驶系统在常规城市路况下表现都比较不错，但在长尾场景中，依然会暴露各种各样的问题，远远不如人类司机。

那么如何让自动驾驶系统从模仿学习，进化到理解交通场景？

在端到端的基础之上，各家技术架构开始分化。詹锟介绍，端到端中间加了Language语义推理，就成了VLA，中间加了未来图像想象，就成了世界模型。

去年的英伟达GTC大会上，理想推出VLA架构。一年沉淀下来，理想智驾整体确实有很大进步，但很快又到了一个瓶颈期。在Xauto智驾榜30个考点中，理想在窄路通行、三点式掉头等难度较高场景依然无法通过。

面对这样的现状，李想提出了一个思考。

人类开车看上去没那么难，每个普通人都能把车开得又快又稳，但全世界最顶尖的企业砸了几千亿进去，自动驾驶仍然进展缓慢。问题到底出在哪？

经过总结，理想认为，过去一直在教AI做成年人的事，但从来没让它当过小孩。

人类在0到6岁的阶段学会了走路，学会了扔球、接球。这看起来只是简单的动作，但实际上已经帮助孩子建立了对三维物理空间的理解。

人类能精准测距、稳定驾驶，是因为“3D预训练”在人类6岁前就完成了。

今天所有的端到端系统本质上都是“看2D视频学开车”，更像是一个人坐在电脑前看了十万小时行车记录仪，然后直接上路。

此前被行业津津乐道的BEV、OCC都存在着短板，BEV把世界从俯视角拍扁，从而丢失了高度信息，OCC虽是3D，但是缺少语义信息。

理想认为，物理AI缺的不是更大的模型、更多的数据，而是一个能真正理解3D世界的视觉基础。

为了解决这个问题，理想引入了原生3D ViT，也就是三维视觉编码器。

ViT（Vision Transformer)，是基于Transformer的主干网络，具备全局注意力的特性，能提取出更优秀的全局上下文特征，是大模型时代的主流。

理想介绍，3D ViT是让模型一开始就工作在真实的三维世界里，以高分辨率多视角视觉为核心，在编码阶段直接完成对3D空间几何和语义的统一理解，包括空间结构、位置关系、语义信息等一次完成。

那么，模型不只是看见画面，而是理解世界。

在这个体系下，激光雷达的角色变了，它不再是感知的核心，而更像一把高精度的尺子，为视觉提供几何标定和近场空间约束。

李想表示，在统一建模下，3D ViT可以稳定感知并推理到500米以上的空间范围。

这里想提一个点，最近华为将旗下多款车型升级到了更高精度的896线激光雷达，或许也是基于同样的思考，为自动驾驶模型描绘更高精度的物理世界。

既然3D ViT有诸多优势，理想为何此时才开始引入其自动驾驶架构？谈及这个问题。

詹锟表示，因为3D ViT对车端推理算力提出了极高的要求，理想汽车自研的马赫100芯片，单颗算力达到1280TOPS，自研芯片的落地为3D ViT部署提供基础。

02

五大核心技术点，最新架构解读

了解了理想汽车新一代自动驾驶架构的核心变化，我们再来全面了解一下其核心技术点。

理想汽车下一代自动驾驶架构的名称是MindVLA-o1。

这个架构以原生多模态MoE Transformer为核心，有五方面核心技术点，包括3D空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计。

在感知层面，理想汽车采用以视觉为核心的3D ViT Encoder（3D视觉模型编码器），并利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构，使其同时具备语义理解与三维感知能力。

同时引入前馈式3DGS表示（Feedforward 3D Representation），将场景拆分为静态环境与动态物体分别建模，并通过下一帧预测作为自监督信号，使模型同时学习深度信息、语义结构与物体运动，最终形成融合空间结构与时间上下文的高质量3D表示。

具备3D空间理解能力，使模型看得更远。

在思考层面，自动驾驶既要理解当前环境，也要预测未来几秒的场景演化。

在语言模型承担语义理解、常识知识和交互能力的基础上，理想汽车还引入了预测式隐世界模型，在隐空间中高效模拟未来。

训练分三阶段：

第一，用海量视频数据预训练Latent World Token（隐世界词元），构建未来表征；

第二，在MindVLA-o1中持续世界模型的推演，形成隐空间的未来推理能力；

第三，将世界模型、多模态推理能力及驾驶行为进行联合训练与对齐。

由此，模型不仅能理解当前场景并进行逻辑判断，还能在隐空间中提前“想象”未来画面，将驾驶决策具象化。

理想汽车将这种能力定义为多模态思考。拥有多模态思考能力，让模型想得更深。

在行为层面，理想汽车构建了统一行为生成（Unified Action Generation）机制。

首先，MindVLA-o1使用VLA-MoE（混合专家模型）架构，并引入专门的Action Expert，从3D场景特征、导航目标、驾驶指令等多维输入中提取信息，并结合多模态思考生成高精度驾驶轨迹。

其次，为满足实时性要求，系统采用并行解码（Parallel Decoding），同时生成所有轨迹点，大幅提升效率。

最后，引入Discrete Diffusion（离散扩散）进行多轮迭代优化，类似逐步去噪，确保轨迹空间连续、时间稳定，并符合车辆动力学约束。

形成统一行为生成机制，使模型行得更稳。

在模型迭代层面，理想汽车构建了闭环强化学习框架，让模型不仅能从真实数据学习，还能在世界模拟器中持续探索和优化策略。

为此，理想汽车将传统逐步优化式重建升级为Feed-forward（前馈）场景重建，使系统能够瞬时生成大规模、高保真驾驶场景，支持大规模并行训练。

同时，结合生成式模型，模拟环境可扩展、编辑并生成全新场景。

为支持大规模模拟与训练，理想汽车开发了统一的3D Gaussian Splatting（3D高斯泼溅）渲染引擎和分布式训练框架，渲染速度提升近2倍，整体训练成本降低约75%，实现低成本、高效率的强化学习闭环。

在闭环强化学习框架下，模型实现更快进化。

为解决传统端侧大模型部署耗时长、调试频繁的问题，理想汽车提出面向端侧大模型的软硬件协同设计定律，将模型结构与验证损失建模，并结合Roofline模型刻画硬件计算能力与内存带宽限制，在模型性能与硬件约束之间建立统一的分析框架。

理想汽车基座模型团队评估了近2000种模型架构配置，在英伟达Orin与Thor平台上完成验证，找到了模型精度与推理延迟之间的Pareto Front（帕累托前沿），将架构探索时间从数月缩短至数天，大幅提升端侧VLA模型的设计与部署效率。

在软硬件协同设计定律下，模型部署更高效。

03

根据理想透露的信息，新一代自动驾驶架构量产时间或在今年二季度，首发落地车型是全新理想L9。

李想此前介绍称，单颗马赫100的有效算力就是英伟达Thor U的3倍。全新理想L9还准备了一个顶配版L9 Livis，这个版本将搭载两颗马赫100芯片。

另一个值得关注的地方是，主流自动驾驶玩家都在向世界模型靠拢，通过理想对于3D ViT的介绍也可以看到，理想也在试图让模型真正理解3D世界。

此外，行业的共识是，自动驾驶只是物理AI落地的一个关键场景，对于自动驾驶的探索，不仅服务于汽车，也可扩展至机器人及各种物理系统。

因此，打造一个通用物理AI基座模型，也是当前车企和智驾公司研发投入的重点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴