来源:市场资讯

(来源:21世纪经济报道)

近期,《21汽车·一见Auto》与小米汽车智能驾驶基座大模型负责人陈龙进行了一次面对面访谈。

“小时候,我们学说话和认字。随着慢慢成长,我们会经常摸、拿、抓、取一些东西。等到我们具备了强大的语言能力和对空间的理解和推理能力,差不多十八岁以后,我们再去学习。这样才能将我们习得的一切融入驾驶之中,不仅开得更快,还开得更好。XLA 大模型也一样。”在访谈时,陈龙对我们说。

3月份,小米刚发布了新一代SU7,并宣布辅助驾驶升级到 XLA 认知大模型架构。小米集团董事长雷军在新一代SU7发布会上称,之所以命名为 “XLA” 而非业内俗称的 “VLA(Vision-Language-Action Model,视觉 - 语言 - 动作)”大模型,是因为模型具备“多模态的认知输入”:小米还融入了声音、机器人数据等模态。

打开网易新闻 查看精彩图片

陈龙就是开发 XLA 认知大模型的负责人。童年时,他喜欢美剧《霹雳游侠》里的智能跑车 KITT,这台跑车有鲜明的自我意识,通过自动驾驶多次帮助主角化险为夷。长大后,他曾在英国剑桥大学孵化的自动驾驶公司 Wayve 任职,是将 VLA 模型引入辅助驾驶领域的先行者,致力于令大模型的驾驶决策过程更加透明。一年之前,他加入小米,担任辅助驾驶 VLA 技术负责人。

彼时的小米辅助驾驶架构还处于 “端到端(End-to-End,一种深度学习模型范式,直接从原始输入映射到最终输出) + VLM(视觉 - 语言模型,Vision-Language Model) ” 阶段。陈龙将这一阶段的核心,提炼为“数据驱动”。端到端拆掉了传统辅助驾驶的“感知”“规划”“决策”模块,通过直接灌入大量驾驶场景数据,直接让模型学习并输出驾驶行为。2024年,国内车企及供应商集体切换到端到端架构,辅助驾驶的整体水平均得到了质的提升。

但进入2025年,端到端架构的缺陷开始显现。通俗来说,大模型虽然靠“死记硬背”海量的驾驶数据提升了自己的驾驶水平,但现实世界总会出现更多元、更复杂的驾驶场景。大模型需要真正理解和认知人类社会和现实世界,才不会在现实世界中遇到新的场景时“傻眼”,像老司机一样思考,做到“举一反三”。——陈龙将新阶段的核心,提炼为“认知驱动”。