小米陈龙谈智驾：先让大模型长到十八岁|大模型|小米集团|智驾|机器人|知名企业|视障人士|陈龙(演员)|雷军

小米陈龙谈智驾：先让大模型长到十八岁

新浪财经

2026-05-10 21:06 ·北京 ·优质财经领域创作者

来源：市场资讯

（来源：21世纪经济报道）

近期，《21汽车·一见Auto》与小米汽车智能驾驶基座大模型负责人陈龙进行了一次面对面访谈。

“小时候，我们学说话和认字。随着慢慢成长，我们会经常摸、拿、抓、取一些东西。等到我们具备了强大的语言能力和对空间的理解和推理能力，差不多十八岁以后，我们再去学习。这样才能将我们习得的一切融入驾驶之中，不仅开得更快，还开得更好。XLA 大模型也一样。”在访谈时，陈龙对我们说。

3月份，小米刚发布了新一代SU7，并宣布辅助驾驶升级到 XLA 认知大模型架构。小米集团董事长雷军在新一代SU7发布会上称，之所以命名为 “XLA” 而非业内俗称的 “VLA（Vision-Language-Action Model，视觉 - 语言 - 动作）”大模型，是因为模型具备“多模态的认知输入”：小米还融入了声音、机器人数据等模态。

陈龙就是开发 XLA 认知大模型的负责人。童年时，他喜欢美剧《霹雳游侠》里的智能跑车 KITT，这台跑车有鲜明的自我意识，通过自动驾驶多次帮助主角化险为夷。长大后，他曾在英国剑桥大学孵化的自动驾驶公司 Wayve 任职，是将 VLA 模型引入辅助驾驶领域的先行者，致力于令大模型的驾驶决策过程更加透明。一年之前，他加入小米，担任辅助驾驶 VLA 技术负责人。

彼时的小米辅助驾驶架构还处于 “端到端（End-to-End，一种深度学习模型范式，直接从原始输入映射到最终输出） + VLM（视觉 - 语言模型，Vision-Language Model） ” 阶段。陈龙将这一阶段的核心，提炼为“数据驱动”。端到端拆掉了传统辅助驾驶的“感知”“规划”“决策”模块，通过直接灌入大量驾驶场景数据，直接让模型学习并输出驾驶行为。2024年，国内车企及供应商集体切换到端到端架构，辅助驾驶的整体水平均得到了质的提升。

但进入2025年，端到端架构的缺陷开始显现。通俗来说，大模型虽然靠“死记硬背”海量的驾驶数据提升了自己的驾驶水平，但现实世界总会出现更多元、更复杂的驾驶场景。大模型需要真正理解和认知人类社会和现实世界，才不会在现实世界中遇到新的场景时“傻眼”，像老司机一样思考，做到“举一反三”。——陈龙将新阶段的核心，提炼为“认知驱动”。