[首发于智驾最前沿微信公众号]现在在网上搜索理想汽车,铺天盖地地会出现很多车主梗的视频,很多人看到只是图一乐,但抛开这些段子回归到技术本身,可以看到,2026年3月,理想汽车在英伟达GTC大会上发布了下一代自动驾驶基础模型MindVLA-o1;不久后,全新旗舰车型L9 Livis亮相,带来了自研的马赫M100芯片、马赫VLA 2.1系统以及全线控底盘。那理想的智驾到底怎么样?

MindVLA-o1为什么不是传统VLA?

想理解MindVLA-o1,需要先知道它能解决什么问题,2024年理想做了端到端加视觉语言模型的双系统架构,2025年又推出了将空间理解、语言理解和动作决策合在一起的VLA司机大模型。但行业里的VLA方案有三个共同的痛点,一是3D空间理解与语义推理之间的对齐效率不理想,导致系统看懂了场景,但做出的驾驶动作却不对;二是视觉、语言、动作之间的传递链路太长,决策延迟明显;三是长尾场景的覆盖不够,单靠堆数据很难从根本上解决。

MindVLA-o1则针对这些问题提出了一个新的解法,它的核心是一个原生多模态MoE(混合专家)Transformer,在模型设计之初就把视觉、语言和行动统一到同一个表示空间中共同训练和对齐,而不是像传统方案那样分别训练三个模块再拼到一起。这种原生的设计思路,使感知、思考和行为三个环节之间的信息传递效率更高,也减少了后期对齐造成的误差。

打开网易新闻 查看精彩图片

图片源自:网络

在这个统一框架之上,理想围绕3D空间理解、多模态思考、统一行为生成、闭环强化学习、软硬件协同设计等5个维度做了具体的设计,下面带大家逐一拆解下。

让模型住进三维世界,意味着什么?

过去自动驾驶的视觉模型多以2D图像为处理单元,BEV(鸟瞰视角)虽然能将多个摄像头的画面拼接成一张俯视图,但本质上是把三维世界拍扁了,高度信息丢失严重。OCC(占用网络)能表达3D结构,却缺少语义信息,其可以知道那里有个东西,但不清楚到底是一辆车、一棵树还是一堵墙。

MindVLA-o1的做法是用一个原生3D ViT(视觉Transformer)编码器替代传统2D方案,这个编码器以高分辨率多视角视觉为核心,在编码阶段就直接对3D空间的几何结构和语义信息做统一理解,其中包括空间结构、位置关系、物体类别和行为状态等。同时,激光雷达点云的角色也发生了变化,它不再是独立的感知主力,而是作为三维几何参照,用来校准模型对物理空间的感知精度。

打开网易新闻 查看精彩图片

图片源自:网络

这套方案还引入了前馈式3DGS表示,将场景拆分为静态环境和动态物体分别建模,用预测下一帧-作为自监督信号,让模型同时学习深度、语义和物体运动,整个模型可以稳定感知并推理到500米以上的空间范围。

引入3D ViT之后,导航目标从2D地图坐标变成了3D空间里的鸟瞰点,与模型的感知结果在同一个三维空间中交互。这让系统在窄路通行、三点式掉头这类需要精细空间理解的场景中表现更好,也从根本上解决了传统方案2D感知向3D控制映射时信息丢失的问题。

打开网易新闻 查看精彩图片

系统如何预演几秒后的场景?

智驾系统如果只是理解了当前的三维环境,是远远不够的,自动驾驶真正困难的地方在于判断接下来会发生什么(旁边车的并线意图、前方行人的动作倾向、绿灯还剩几秒够不够通过),这些都需要对未来做推演。

MindVLA-o1在这一点上引入了预测式隐世界模型。通俗地说,它在模型内部构建了一个隐空间,先把当前场景转化为隐空间中的表达,然后在这个空间中直接推演未来几秒的场景演化。因为不需要生成真实的像素画面,而是在隐空间中完成推演,所以计算效率比直接生成未来图像高得多。模型可以在隐空间中提前想象未来画面,并基于想象结果来做逻辑判断和驾驶决策,理想把这种能力称为多模态思考。

打开网易新闻 查看精彩图片

图片源自:网络

这套隐世界模型的训练分三个阶段,先用海量视频数据预训练隐世界词元,构建未来的表征能力;再在MindVLA-o1中持续进行世界模型的推演,形成隐空间的未来推理能力;最后将世界模型、多模态推理和驾驶行为进行联合训练和对齐。通过这种阶段式的训练策略,模型对动态场景的预判能力将逐步建立,而不只是一步到位地拟合数据。

驾驶轨迹怎样从一个统一框架中生成?

当模型完成了空间理解和未来推演之后,下一步就是把决策转化为具体的驾驶轨迹,MindVLA-o1在行为生成上做了三层设计。

打开网易新闻 查看精彩图片

图片源自:网络

第一层是VLA-MoE架构中的Action Expert,即动作专家。它是一个专门负责轨迹生成的专家模块,从3D场景特征、导航目标和驾驶指令等多维输入中提取信息,结合前面的多模态思考结果,生成高精度驾驶轨迹。

第二层是并行解码。传统方案逐帧生成轨迹点,延迟较高,MindVLA-o1采用一次并行生成所有轨迹点的方式,大幅提升了长序列轨迹预测的效率,满足实时驾驶的需求。

第三层是轨迹优化。生成原始轨迹后,系统引入离散扩散机制进行多轮迭代优化,类似去噪过程,确保最终的轨迹在空间上连续、在时间上稳定,并且符合车辆的动力学约束(不能出现车辆实际无法执行的急转或急刹)。

这三层设计使得驾驶行为从一个统一的框架中平滑产出,而不是靠人工规则来修补。

芯片和底盘,让模型跑起来的硬件基础

模型再先进,最终还是要部署到车上,这里涉及计算芯片和执行机构这两个方面的硬件支撑。

理想在2026年5月正式发布了自研的马赫M100芯片,这是一款车规级AI推理芯片,采用5nm工艺,单颗算力1280 TOPS。它采用了一种不同于传统GPU的架构,即动态数据流架构。传统GPU基于冯·诺依曼架构,计算和数据搬运是分离的,AI推理时大量功耗和延迟都浪费在数据搬运上。而动态数据流架构可以按数据流动路径直接组织计算,能够绕开这个瓶颈。

打开网易新闻 查看精彩图片

图片源自:网络

在运行VLA大模型时,马赫M100的有效算力据称是英伟达Thor-U的3倍,同功耗下推理延迟降低35%,能耗减少40%,端到端延迟整体下降40%,车辆反应速度比人类快一倍。这组数据背后其实还涉及到软硬件协同设计的策略,理想不是先做模型再找芯片适配,而是在研发阶段就评估了近2000种模型架构配置,让模型结构和芯片的计算、内存特性联合优化,把原本需要数月的架构筛选压缩到几天内完成。L9 Livis就搭载了两颗马赫M100,总算力可以达到2560 TOPS。

硬件层的另一个重要部分是全线控底盘,它由线控转向、线控机械制动和后轮转向三套系统组成,全部通过电信号控制,替代了传统的机械连接。对自动驾驶而言,线控底盘的电子信号传递远快于机械结构,整车控制系统可以实现全链路毫秒级响应。这种毫秒级的控制能力,是高级别自动驾驶对车辆执行层的适配要求。理想也曾明确表示,线控底盘是面向L3和L4自动驾驶做的提前布局,如果没有比人类驾驶员快50%以上的响应速度,高级别自动驾驶的安全接管就无从谈起。

配合L9 Livis,理想一同推出的还有马赫VLA 2.1系统,它是MindVLA-o1模型的车端落地版本。在双马赫M100芯片和3D ViT感知模型的加持下,马赫VLA 2.1的多模态计算量提升了10倍,可视距离提升50%,在风险预判和意图理解方面有显著增强。

最后的话

从MindVLA-o1到马赫M100芯片,再到线控底盘和马赫VLA 2.1,理想搭建的是一套纵向打通的系统,基础模型负责理解世界和做决策,自研芯片负责让大模型在车上高效运行,线控底盘负责把数字决策快速、精准地变成物理动作。三者缺一不可,少了任何一个环节,整套系统的上限都会被拉低。这也解释了理想为什么要在模型、芯片和底盘三条线上同时投入,它的目标不是只做一套辅助驾驶功能,而是构建一个能在物理世界中完整闭环的AI系统。