抛去车主梗，理想汽车的智驾技术怎么样？|智驾技术|模态|理想汽车|轨迹

[首发于智驾最前沿微信公众号]现在在网上搜索理想汽车，铺天盖地地会出现很多车主梗的视频，很多人看到只是图一乐，但抛开这些段子回归到技术本身，可以看到，2026年3月，理想汽车在英伟达GTC大会上发布了下一代自动驾驶基础模型MindVLA-o1；不久后，全新旗舰车型L9 Livis亮相，带来了自研的马赫M100芯片、马赫VLA 2.1系统以及全线控底盘。那理想的智驾到底怎么样？

MindVLA-o1为什么不是传统VLA？

想理解MindVLA-o1，需要先知道它能解决什么问题，2024年理想做了端到端加视觉语言模型的双系统架构，2025年又推出了将空间理解、语言理解和动作决策合在一起的VLA司机大模型。但行业里的VLA方案有三个共同的痛点，一是3D空间理解与语义推理之间的对齐效率不理想，导致系统看懂了场景，但做出的驾驶动作却不对；二是视觉、语言、动作之间的传递链路太长，决策延迟明显；三是长尾场景的覆盖不够，单靠堆数据很难从根本上解决。

MindVLA-o1则针对这些问题提出了一个新的解法，它的核心是一个原生多模态MoE（混合专家）Transformer，在模型设计之初就把视觉、语言和行动统一到同一个表示空间中共同训练和对齐，而不是像传统方案那样分别训练三个模块再拼到一起。这种原生的设计思路，使感知、思考和行为三个环节之间的信息传递效率更高，也减少了后期对齐造成的误差。

图片源自：网络

在这个统一框架之上，理想围绕3D空间理解、多模态思考、统一行为生成、闭环强化学习、软硬件协同设计等5个维度做了具体的设计，下面带大家逐一拆解下。

让模型住进三维世界，意味着什么？

过去自动驾驶的视觉模型多以2D图像为处理单元，BEV（鸟瞰视角）虽然能将多个摄像头的画面拼接成一张俯视图，但本质上是把三维世界拍扁了，高度信息丢失严重。OCC（占用网络）能表达3D结构，却缺少语义信息，其可以知道那里有个东西，但不清楚到底是一辆车、一棵树还是一堵墙。

MindVLA-o1的做法是用一个原生3D ViT（视觉Transformer）编码器替代传统2D方案，这个编码器以高分辨率多视角视觉为核心，在编码阶段就直接对3D空间的几何结构和语义信息做统一理解，其中包括空间结构、位置关系、物体类别和行为状态等。同时，激光雷达点云的角色也发生了变化，它不再是独立的感知主力，而是作为三维几何参照，用来校准模型对物理空间的感知精度。

图片源自：网络

这套方案还引入了前馈式3DGS表示，将场景拆分为静态环境和动态物体分别建模，用预测下一帧-作为自监督信号，让模型同时学习深度、语义和物体运动，整个模型可以稳定感知并推理到500米以上的空间范围。

引入3D ViT之后，导航目标从2D地图坐标变成了3D空间里的鸟瞰点，与模型的感知结果在同一个三维空间中交互。这让系统在窄路通行、三点式掉头这类需要精细空间理解的场景中表现更好，也从根本上解决了传统方案2D感知向3D控制映射时信息丢失的问题。

系统如何预演几秒后的场景？

智驾系统如果只是理解了当前的三维环境，是远远不够的，自动驾驶真正困难的地方在于判断接下来会发生什么（旁边车的并线意图、前方行人的动作倾向、绿灯还剩几秒够不够通过），这些都需要对未来做推演。

MindVLA-o1在这一点上引入了预测式隐世界模型。通俗地说，它在模型内部构建了一个隐空间，先把当前场景转化为隐空间中的表达，然后在这个空间中直接推演未来几秒的场景演化。因为不需要生成真实的像素画面，而是在隐空间中完成推演，所以计算效率比直接生成未来图像高得多。模型可以在隐空间中提前想象未来画面，并基于想象结果来做逻辑判断和驾驶决策，理想把这种能力称为多模态思考。

图片源自：网络

这套隐世界模型的训练分三个阶段，先用海量视频数据预训练隐世界词元，构建未来的表征能力；再在MindVLA-o1中持续进行世界模型的推演，形成隐空间的未来推理能力；最后将世界模型、多模态推理和驾驶行为进行联合训练和对齐。通过这种阶段式的训练策略，模型对动态场景的预判能力将逐步建立，而不只是一步到位地拟合数据。

驾驶轨迹怎样从一个统一框架中生成？

当模型完成了空间理解和未来推演之后，下一步就是把决策转化为具体的驾驶轨迹，MindVLA-o1在行为生成上做了三层设计。

图片源自：网络

第一层是VLA-MoE架构中的Action Expert，即动作专家。它是一个专门负责轨迹生成的专家模块，从3D场景特征、导航目标和驾驶指令等多维输入中提取信息，结合前面的多模态思考结果，生成高精度驾驶轨迹。

第二层是并行解码。传统方案逐帧生成轨迹点，延迟较高，MindVLA-o1采用一次并行生成所有轨迹点的方式，大幅提升了长序列轨迹预测的效率，满足实时驾驶的需求。

第三层是轨迹优化。生成原始轨迹后，系统引入离散扩散机制进行多轮迭代优化，类似去噪过程，确保最终的轨迹在空间上连续、在时间上稳定，并且符合车辆的动力学约束（不能出现车辆实际无法执行的急转或急刹）。

这三层设计使得驾驶行为从一个统一的框架中平滑产出，而不是靠人工规则来修补。

芯片和底盘，让模型跑起来的硬件基础

模型再先进，最终还是要部署到车上，这里涉及计算芯片和执行机构这两个方面的硬件支撑。

理想在2026年5月正式发布了自研的马赫M100芯片，这是一款车规级AI推理芯片，采用5nm工艺，单颗算力1280 TOPS。它采用了一种不同于传统GPU的架构，即动态数据流架构。传统GPU基于冯·诺依曼架构，计算和数据搬运是分离的，AI推理时大量功耗和延迟都浪费在数据搬运上。而动态数据流架构可以按数据流动路径直接组织计算，能够绕开这个瓶颈。

图片源自：网络

在运行VLA大模型时，马赫M100的有效算力据称是英伟达Thor-U的3倍，同功耗下推理延迟降低35%，能耗减少40%，端到端延迟整体下降40%，车辆反应速度比人类快一倍。这组数据背后其实还涉及到软硬件协同设计的策略，理想不是先做模型再找芯片适配，而是在研发阶段就评估了近2000种模型架构配置，让模型结构和芯片的计算、内存特性联合优化，把原本需要数月的架构筛选压缩到几天内完成。L9 Livis就搭载了两颗马赫M100，总算力可以达到2560 TOPS。

硬件层的另一个重要部分是全线控底盘，它由线控转向、线控机械制动和后轮转向三套系统组成，全部通过电信号控制，替代了传统的机械连接。对自动驾驶而言，线控底盘的电子信号传递远快于机械结构，整车控制系统可以实现全链路毫秒级响应。这种毫秒级的控制能力，是高级别自动驾驶对车辆执行层的适配要求。理想也曾明确表示，线控底盘是面向L3和L4自动驾驶做的提前布局，如果没有比人类驾驶员快50%以上的响应速度，高级别自动驾驶的安全接管就无从谈起。

配合L9 Livis，理想一同推出的还有马赫VLA 2.1系统，它是MindVLA-o1模型的车端落地版本。在双马赫M100芯片和3D ViT感知模型的加持下，马赫VLA 2.1的多模态计算量提升了10倍，可视距离提升50%，在风险预判和意图理解方面有显著增强。

最后的话

从MindVLA-o1到马赫M100芯片，再到线控底盘和马赫VLA 2.1，理想搭建的是一套纵向打通的系统，基础模型负责理解世界和做决策，自研芯片负责让大模型在车上高效运行，线控底盘负责把数字决策快速、精准地变成物理动作。三者缺一不可，少了任何一个环节，整套系统的上限都会被拉低。这也解释了理想为什么要在模型、芯片和底盘三条线上同时投入，它的目标不是只做一套辅助驾驶功能，而是构建一个能在物理世界中完整闭环的AI系统。