在数字化浪潮席卷全球的当下,人工智能技术深度渗透汽车行业,驱动产业加速向智能化转型。自动驾驶从硬件驱动的 1.0 时代、软件驱动的 2.0 时代,迈进至数据驱动、多模态融合的 3.0 时代,大模型成为重塑汽车智能化生态的关键力量。2024 年,车企密集布局,大模型上车进入实质落地阶段,在自动驾驶、智能座舱等场景展现强大赋能价值,同时也面临数据安全、系统适配等挑战。《汽车行业大模型应用研究报告(2025)》聚焦大模型技术,深入剖析其在汽车行业的应用逻辑、实践进展与发展困境,洞察智能化变革趋势,为产业升级提供参考。
一、⼤模型市场发展概况
1.1 大模型基础概念
目前业界对大模型的定义尚未统一。狭义层面,大模型可指代大语言模型,其依托 Transformer 技术框架构建;从广义来讲,它涵盖语言、声音、图像、视频等多模态大模型,技术框架还包含 Stable Diffusion 等。在学界,李飞飞等人工智能学者将这类模型称作基础模型(FM,Foundation Model)。
依据权威机构定义,AI 大模型是基于海量多源数据构建的预训练模型,是对原有算法模型的技术升级与产品迭代。用户能通过开源或开放 API / 工具等形式,开展模型的零样本或小样本数据学习,进而实现更优的识别、理解、决策与生成效果,同时降低开发和部署成本 。大模型的核心作用在于突破数据标注瓶颈,借助对海量无标注数据的预训练,拓展模型前期学习的广度与深度,提升知识水平,以低成本、高适应性赋能后续下游任务应用。在实际应用里,预训练大模型先在海量数据的自监督学习阶段完成 “通识” 教育,再通过 “预训练 + 精调” 模式,依据具体应用场景特性,用少量数据微调,就能高水平完成任务。
参考 OpenAI 的 GPT - 4 技术报告(arXiv:2303.08774),大模型是一种可处理图像和文本输入、生成文本的大规模多模态模型,主要应用于对话系统、文本摘要和机器翻译等场景。
本研究报告对大模型的定义为:广义上,大模型是参数数量庞大、结构复杂的深度学习模型,具备涌现能力与通用能力,可处理自然语言处理、图像识别等复杂下游任务,技术框架涵盖语言、声音、图像、视频等多模态大模型技术 。
1.2 大模型市场规模预测
预测显示,2024 年中国 AI 大模型市场规模将达 180 亿元人民币,到 2028 年,整体市场规模预计攀升至 690 亿元人民币,年均复合增长率约为 40%。
从数量维度看,截至 2024 年底,全国通过网信办备案的生成式人工智能服务超 200 个,全部大模型数量应超 300 个。在商业化落地进程中,据云头条统计,2024 年 1 - 11 月,大模型中标项目共 728 个,是 2023 年全年的 3.6 倍。
1.3 大模型行业应用概况
在科技飞速发展的当下,大模型已成为推动众多领域创新的关键力量。汽车领域凭借庞大的产业规模以及对智能化技术的迫切需求,成为大模型应用的核心阵地。
近年来,受技术进步与消费者需求变化驱动,汽车行业正经历前所未有的变革,2024 年的突破尤为突出。自动驾驶技术日趋成熟,智能座舱功能愈发丰富,新能源汽车市场份额持续提升,这些都离不开大模型的助力。目前 “上车” 的大模型,既有华为盘古、百度文心一言等科技企业开发的通用大模型,也有比亚迪璇玑等车企自研的行业大模型,从终端视角看,已有超 10 个品牌的汽车搭载大模型。
从重点行业应用领域分析,随着消费者对汽车安全性、舒适性与智能化要求的提升,具备先进大模型技术的汽车产品竞争力更强。预计未来几年,全球汽车大模型市场将呈爆发式增长。传统汽车制造商加大研发投入,众多科技公司也跨界入局,共同推动汽车大模型技术发展。
此外,汽车大模型的发展将给整个产业链带来深刻变革。生产环节,大模型可优化生产流程,提升生产效率与质量控制水平;销售和服务环节,能实现精准营销与个性化服务,增强客户满意度。这一系列变革将重塑汽车产业竞争格局,为行业参与者创造新机遇与挑战。
综上所述,汽车行业大模型应用不仅具备巨大市场潜力,还将对整个汽车产业链产生深远影响。因此,深入研究与探索汽车大模型应用具有重要现实意义。接下来,第二章将详细探讨大模型在汽车全产业链的变革应用。
二、汽车⾏业⼤模型应用现状
汽车行业产品复杂、产业链漫长,汽车厂商与科技厂商纷纷在大模型应用领域布局发力。从应用场景分析,大模型可在自动驾驶、智能座舱、产品研发及营销销售这四个领域发挥关键作用,重塑整个汽车行业格局。
2.1 大模型在自动驾驶中的应用
自动驾驶感知模块
自动驾驶的感知模块借助传感器采集的数据,实时动态生成驾驶环境的感知结果。感知大模型是提升车辆自动驾驶能力的核心驱动力之一,它能识别道路、交通标志、行人、车辆等信息,为自动驾驶车辆提供环境感知,进而支撑车辆自主决策。准确、高效地感知车辆周围信息是自动驾驶运行的基础,感知结果对下游的运动预测、行为决策与路径规划起着关键作用。
在自动驾驶的感知层,大模型的应用主要体现在利用 Transformer 模型对 BEV 数据进行特征提取,实现对障碍物的监测与定位。
感知模块作为自动驾驶的关键组成部分,自 2011 年起,经历了从 CNN(卷积神经网络 )到 RNN(循环神经网络 )+GAN(生成对抗网络 )、BEV(鸟瞰图 ),再到 BEV + Transformer + 占用网络的多样化模型迭代。从感知 1.0 时代后融合(每个传感器分散感知 ),发展到感知 2.0 时代前融合 BEV 感知。当前,大模型在自动驾驶感知方面已有诸多应用,像百度文心 UFO 2.0 视觉大模型、华为盘古 CV 大模型、META 的 SAM 大模型以及商汤的 INTERN 大模型等。
SLAM + DL:第一代自动驾驶技术
第一代自动驾驶感知技术把 SLAM 算法(单摄像头的时间序列 )与深度学习技术相结合。其任务特征(如物体检测、语义分割任务 ),需在与输入图像相同的坐标系中进行估计。从图中可知,唯一例外是摄像头感知,它需在二维图像的透视空间处理,而二维检测要大量传感器融合人工规则才能升级到三维(如用雷达或激光雷达等传感器进行三维测量 )。所以,传统感知堆栈通常要在与车载摄像头图像相同空间内处理,将二维信息升级为三维定位,后续预测和规划常依赖多传感器融合(如借助毫米波雷达或激光雷达等有源传感器 ) 。
然而,这种基于 SLAM + DL 的传统自动驾驶技术暴露出诸多技术难题:
感知模块在自动驾驶系统中处于最上游,当传感器种类和数量大幅增加时,如何融合连续输入的多模态、不同视角数据,并实时输出下游所需任务结果,成为自动驾驶的核心难题。
感知环节往往消耗车辆大量计算能力。在感知过程中,系统需融合不同视角摄像头的视觉数据,以及毫米波雷达、激光雷达等传感器数据,给模型设计和工程实现带来挑战。传统融合后处理方法中,每个传感器对应一个神经网络,无法充分发挥多传感器融合优势,且若多个任务简单共享一个骨干网络,易导致各任务难以同时取得优异性能。
BEV + Transformer 是大模型技术应用在自动驾驶感知系统的开始
BEV(Bird’s Eye View )指一种鸟瞰式视角或坐标系,能立体描述感知到的现实世界,如同在车辆正上方 10 - 20 米处俯视车辆及周围环境,也被称为 “上帝视角”。相应地,BEV 也代表将视觉信息由图像空间端到端转换到 BEV 空间的技术,实现该任务的关键在于把 2D 图像作为输入,最终输出一个 3D 框架。
Transformer 是基于注意力机制(Attention Mechanism )的神经网络模型,由谷歌 2017 年论文《Attention is All You Need》提出。相比 RNN,它优势在于可并行计算、处理长序列输入;较 CNN,优势是保留位置信息、解决远距离特征依赖问题。因此,Transformer 模型成了自然语言处理领域最流行的模型之一,先在自然语言处理(NLP )领域取得巨大成功,后被应用于计算机视觉(CV )任务并获显著效果。特斯拉率先将 Transformer 引入自动驾驶算法,其他新势力车企与传统车企纷纷跟进。
目前,BEV 技术主要基于深度学习方法,根据 BEV features 的组织方式,有两类主流方法。一类是自底向上方法,核心是先对各个相机图像 2D 特征点进行深度分布估计,得到包含图像特征的点云;再结合相机内外参,将所有相机点云映射到 BEV 网络中;最后对每个栅格中的多个点云进行计算(即多个视角的融合 ),形成 BEV features。这种方法早期的代表工作是 LSS,后来的 BEVDET、BEVDepth 等也是在此基础上优化而来。
另一种是自顶向下方法,典型代表是特斯拉基于 Transformer 构建的 BEV 感知方法。该方法核心思想是先预定义生成的 BEV features,然后通过多层 Transformer 与每个图像特征交互融合,获取对应的 BEV features。Transformer 采用交叉注意力机制,进行全面数据在跨模态和时序融合过程,能更加强调场景,在动态构建时,形成时序融合下的 4D 空间信息,让感知结果更连续。
传统小模型(如 CNN、RNN 等 )参数少、泛化性差,无法支撑高等级自动驾驶的海量数据处理需求;在视角信息获取上存在局限(如后期融合 ),单摄像头感知也有明显不足。BEV + Transformer 将多个传感器图像融合到同一平面(即中融合 ),提供全局视角,能更全面理解周围环境。
与传统小模型相比,BEV + Transformer 优势主要体现在提升智能驾驶的感知与泛化能力,助力缓解智能驾驶的长尾问题,提高感知力:BEV 统一视角,将激光雷达、雷达和相机等多模态数据融合到同一平面,提供全局视角,消除数据间遮挡和重叠问题,提升物体检测和跟踪精度,提高泛化能力;Transformer 模型通过注意力机制,实现全局理解的特征提取,利于探寻事物内在关系,让智能驾驶学会总结归纳,而非机械式学习。
为何 “BEV + Transformer” 会成为主流模式?关键在于 “第一性原理”,即智能驾驶应更接近 “像人一样驾驶”,映射到感知模型,BEV 是一种更自然的表达方式,且因全局注意力机制,变形器更适合进行视图转换。此外,BEV + Transformer 还有更好的可解释性与灵活性。随着产学研推进,BEV + Transformer 近期已从普及迈向量产 。
在自动驾驶的感知模块应用大模型的意义
城市 NOA 的需求:当前,汽车主机厂正从高速领航辅助驾驶向城市领航辅助驾驶(城市 NOA )拓展。但城市场景较高速场景更复杂,意味着面临更多长尾问题(Corner Case )。高速场景较为封闭,交通环境标准化程度高;而城市场景交通复杂(如红绿灯路口 )、交通参与者众多(如行人和低速两轮车 )、场景异质性强(不同城市乃至不同路段路况差异显著 ),致使自动驾驶在城市场景中遇到的 Corner Case 大幅增加。
NOA 的落地需求对自动驾驶模型的泛化能力提出更高要求,同时考虑商业化落地成本约束,应用 AI 大模型提升泛化能力、降低 / 控制车辆硬件成本,成为自动驾驶算法演变的核心路径。
脱离高精度地图和降低成本的需求:此前,国内主机厂实现城市领航辅助驾驶主要依赖高精度地图和单车感知方案。但实施过程中,高精度地图存在以下三个问题:1)无法实时更新;2)存在法规风险;3)成本高昂。为应对这些问题,自动驾驶感知算法向 BEV(Bird’s Eye View ) + Transformer 架构升级,助力城市领航辅助驾驶摆脱对高精度地图的依赖。
极端天气工况下的需求:在后融合模型中,遇到雨雪等极端天气时,摄像头采集到的数据 / 视频清晰度大幅下降,难以达到摄像头判断合格的标准,导致传递给后端的规划控制结果明显变差。与之不同,BEV 视角的感知模型从不同视角的摄像头采集到的图片转换到 BEV 视角进行特征融合。例如,在极端天气工况下,部分光子信息仍能反映前方障碍物的情况,这些信息可用于后续规划控制。在特征融合框架下,感知模型对数据的利用率显著提升。
自动驾驶预测与规划模块
自动驾驶行为预测处于自动驾驶架构中的感知与规划之间,它利用感知模块识别的障碍物信息,借助 Transformer 模型捕捉学习交通参与者的运动模式与历史轨迹数据,预测这些障碍物未来的行为和轨迹,为规划模块提供依据。
自动驾驶汽车在真实复杂场景下大规模部署面临挑战,主要源于动态和强交互性场景中的行为与轨迹预测问题尚未有效解决。
传统轨迹预测方法通常依赖成熟的数学和统计技术,依据历史数据和预定义模型进行预测。常用方法有基于物理模型的方法、基于概率模型的方法、基于卡尔曼滤波器的方法以及基于马尔可夫模型的方法。这类方法简单高效,无需复杂训练数据就能应用;但因只关注局部环境和交互因素,导致获得的轨迹可能是局部最优解,仅适用于短期预测及无障碍物的开放环境。
基于深度学习的轨迹预测是大模型技术在预测模块应用的新方向。
基于学习的方法利用神经网络模型,从大量数据中学习复杂模式和关系,进而预测未来轨迹。相较于传统预测方法,深度学习方法在复杂现实场景中优势显著,如卷积神经网络(CNN )用卷积层检测局部空间特征并分层组合识别复杂模式,已广泛应用;基于深度学习的长短期记忆网络(LSTM )因可控制每一时段信息的记忆与遗忘,筛选保留信息,能处理长序列信息,在轨迹长期预测方面效果较好。不过,单一神经网络用于轨迹预测存在较多缺陷,于是出现用混合神经网络完善轨迹预测结果的方法,如结合卷积 LSTM 和深度卷积神经网络的卷积 - 循环框架(CNN - LSTM )等。
基于学习的轨迹预测方法通常采用编码 - 解码架构,包含信息表示、场景编码和多模态解码等主要环节。
基于深度学习的轨迹预测是⼀个前沿的研究⽅向,它还有很多值得探索的问题和应⽤场景。例如,如何更好地融合多源数据,如图像、视频、 地图、传感器等,来提⾼轨迹预测的准确性和鲁棒性,如何更好地评估轨迹预测的性能,如考虑多模态、多目标、多尺度等因素?如何更好地利⽤轨迹预测的结果,如进⾏决策、规划、控制等? 这些问题都值得进⼀步的研究和探讨。
自动驾驶决策与控制模块
自主决策和运动控制是自动驾驶的核心功能,其水平高低决定了自动驾驶汽车的智能程度。自动驾驶决策控制系统的技术方案,主要历经专家规则型、模仿学习型、类脑学习型这三个发展阶段。自动驾驶决策控制大模型的目标,是构建以深度学习和强化学习为基础、数据驱动与知识引导相结合的决策控制通用型模型训练算法,为自动驾驶的智能性突破提供解决方案。
目前,工业界还缺少用于自动驾驶的决策与控制一体化大模型。由清华大学提出的集成式架构(IDC),把决策与控制整合为统一的约束型最优控制问题,利用数据驱动算法直接输出策略模型,能以环境感知结果为输入,生成油门、制动、转向等控制指令。IDC 具备在线计算效率高、可解释性强、无需人工标注数据、可自回归地预测下一个动作等优点,为大模型应用于自动驾驶决策控制奠定了基础。下图呈现的是传统专家分层式和集成式决策控制架构示意图。
⼤模型⾃动驾驶场景的重建和数据闭环的应⽤
自动驾驶数据标注
自动驾驶的数据标注,是为自动驾驶系统提供训练数据的过程,涉及的数据包含但不限于图片、视频、文本等,需经特定标注,让机器学习模型更好理解和识别传感器检测到的对象。数据标注在自动驾驶系统里作用关键,直接影响系统的准确性与安全性。
数据标注指借助 2D 包围框、语义分割等手段,给图像或视频里的特定对象添加标签的流程。它能助力机器学习模型更好解读和识别汽车传感器检测的对象,保障自动驾驶系统高效运行,所以为该系统提供高质量标注数据十分必要。
长期以来,人工标注是项目实施必备环节,直接关系自动驾驶产品效果,不过标注过程相对枯燥、重复且无趣。采用大模型预训练的方式,可实现自动标注,自动标注工具还能大幅加快数据处理速度。模型标注精度越高,对人工的替代程度通常也越高。
大模型已在自动驾驶 AI 自动标注算法中广泛应用,具体优势如下 :
大模型能高效在 AI 领域不同任务间切换,利用海量数据训练优化,知识完备性好、精度高、泛化能力强。
大模型可通过蒸馏、知识迁移等,快速提升下游任务小模型能力,下游任务中基于少量数据微调,就能取得较好效果。
大模型能够利用自动标注等方法,为小模型生产更具针对性的数据,供小模型学习,降低下游任务数据标注成本,减少开发迭代成本。
大模型的 Backbone(基础网络部分 ),一般可用无监督 / 自监督方式,在大规模数据集上预训练。
大模型可融合多模态数据,有效集成 NLP、视觉、语音等源数据,实现 1 + 1 > 2 的效果,进一步提升 AI 模型知识完备性。
特斯拉应用大模型进行自动标注案例
特斯拉在自动驾驶领域应用中,凭借庞大车队收集的海量真实世界数据,依靠大模型开展高效数据标注。这些数据涵盖车辆传感器输入,像摄像头图像、雷达信号、激光雷达(LiDAR )数据等,用于训练深度学习算法,实现对周围环境的精准感知。特斯拉的自动驾驶系统 Autopilot 利用这些标注数据,持续优化其神经网络模型,提升车辆对行人、其他车辆、交通信号和道路条件的识别精度,保障自动驾驶的安全性与可靠性。通过持续学习和迭代,特斯拉能在自动驾驶领域实现快速技术进步 。
从 2018 年至今,特斯拉数据标注领域历经四个发展阶段 :
第 1 阶段(2018 年之前 ):仅有纯人工的 2 维图像标注,效率较低 。
第 2 阶段(2019 年 ):人工进行 3D 固定框的图像标注 。
第 3 阶段(2020 年 ):采用 BEV 空间进行标注 。
第 4 阶段(2021 年 ):先对场景重建,再在 4D 空间中进行标注,精度和效率大幅提升。特斯拉自动标注系统可取代 500 万小时的人工操作,人工仅需检查补漏 。
其他厂商应用大模型自动标注案例
其他主机厂和 Tier1 厂商推出多项大模型产品服务,解决数据标注问题。小鹏推出的全自动标注系统,效率提升近 45,000 倍,以前 2,000 人年的标注量,如今 16.7 天就能完成 。
毫末智行在 AI Day 中表示,毫末基于视觉自监督大模型,实现 4D Clip 的 100% 自动标注,原先依赖的人工标注成本降低 98% 。
腾讯发布国内首个 AI 原生的向量数据库,专为向量数据存储、检索和分析量身定制。智驾场景下,向量数据库可良好处理海量的视频、点云等非结构化数据。假设在 10 亿张图片里找 1 张卡车运输共享单车的图片,腾讯向量数据库可并发支持 100 万个请求,在 10 亿规模图片里搜索,仅需百毫秒就能轻松找到该记录 。
龙猫数据不断打磨技术内核,推出 AutopilotGPT,在自动标注领域取得领先优势。AutopilotGPT 具备强泛化能力,可解决图片、点云等数据识别难点问题;兼容多种类型传感器,如禾赛、图达通、大疆等多款激光雷达;可识别多种应用场景,像目标检测、目标追踪、车道线识别、可行驶区域识别、图像分割、点云分割等 。
龙猫数据 AutopilotGPT 参数量突破百亿,应用结果显示模型已具备通用物体分辨能力,该能力使模型对常见不同物体,标注准确率高。对于不常见和极端场景,配合 Zero Shot/Few Shot 技术,可使标注精度达到常见场景水平,即标注模型已天然具备适配不同场景的属性,且标注效率大幅提升 。
模拟仿真
模拟仿真是自动驾驶系统构建必不可少的环节。为保障自动驾驶安全,模拟仿真、封闭场地和实际道路测试这三种测试方法缺一不可。模拟仿真是将数据采集过程中的实车数据,经聚类、场景提取、泛化与筛选,构建用于测试的虚拟世界,自动驾驶算法控制车辆与虚拟世界交互,并输出交互结果。
当前智能驾驶仿真主流技术方案是 NeRF + 素材库 + 游戏引擎,基于真实数据构建道路重建和真实场景的相似度,再依靠交通元素的不同排列组合进行条件泛化,最后通过游戏引擎输出高质量仿真画面。
传统仿真测试验证主要由道路和场景编辑器来人工搭建静态场景和动态场景,仿真场景对实际工程中遇到的边缘案例主要通过人工进行泛化,如量产车在影子模式下遇到某一 corner case 并进行数据回传后,在虚拟引擎中进行场景重建,再通过人为添加要素(如增添雨雾环境、增加交通参与人数等 )对原始场景进行梯度泛化。这种方式耗时费力,还极大限制了场景要素组合的丰富化。
近年来,随着端到端自动驾驶技术应用,仿真测试策略也在改变,仿真需支持全闭环验证策略,要有高逼真的场景、可行决策的生成能力以及配套的真实和评价体系。2022 年以来,Nerf、Diffusion Model、World Model(世界模型 )等新技术,提升了平台的仿真度,可用于算法训练,大幅提升训练效率。世界模型能够理解物理世界运行规律,具备泛化到训练样本以外的能力,因此可迅速生成非常真实和多样的驾驶场景用于智能驾驶仿真。
不少自动驾驶技术公司正积极运用大语言模型或多模态大模型,开展更全面的仿真训练,增强车辆对场景的理解和对环境常识的认知,进而部署端到端自动驾驶方案。利用大模型和 AIGC,可生成和编辑更丰富多元的测试场景,如光照、天气及减速到半速的交通环境,尤其能补充一些敏感或高安全领域的数据和长尾数据,填补真实数据缺口,提升训练和测试样本的多样性、完备性与均衡性。
最新的驾驶数字孪生仿真平台,采用 AIGC + 高逼真渲染引擎构建和生成 4D 场景,可用于进行端到端算法的仿真测试,也能生成配套的真值标注数据,用于感知算法训练。有厂商推出了基于大模型的仿真系统,利用机器学习、深度学习等人工智能技术,推出自动标注大模型、多模态检测大模型和场景生成大模型等模块,并引入三维重建大模型加强渲染画面真实性。通过上述模块,输入传感器原始数据或目标集数据,经感知融合、场景提取和生成等功能,输出仿真测试所需的静态路网和动态场景进行仿真,大幅提高仿真测试的效率。
吉利集团大模型 AI DRIVE 在仿真中的应用
星睿 AI DRIVE 大模型运用 AI 自动化感知场景生成技术,每日可合成 10 万张有效标注数据,能在 10 小时内生成 1000 公里的感知场景,真正满足感知算法训练所需的包罗万象的场景需求。
五一视界 51 WORLD
五一视界 51WORLD 的 AIGC - Scenario Copilot 支持全自然语言交互,无需繁琐手动编辑和代码,只需简单输入场景描述(如 “增加动作,先向右变道,然后减速到 0” ),利用 AI 大语言模型,即可生成符合 OpenSCENARIO 标准的自动驾驶仿真测试场景,同时生成未知危险场景,拓展仿真测试边界。
英伟达 DRIVE Sim
NVIDIA DRIVE Sim 基于 NVIDIA Omniverse 构建,通过一个基于物理的端到端仿真平台应对挑战,该平台从设计之初就用于运行大规模、物理上精确的多传感器仿真。它可生成合成数据,在具有高保真度和准确传感器数据的封闭循环仿真中,训练自动驾驶汽车的感知能力,验证运动控制。
2.2 大模型在智能座舱中的应用
智能座舱作为汽车智能化的核心组成,集成了信息娱乐、驾驶辅助、车辆控制等多种功能。大模型技术凭借强大的数据处理能力和高度智能化水平,正重新定义智能座舱的发展方向。
语音识别技术的集成,是提升智能座舱用户体验的关键。大模型技术(尤其是具备对话和辅助功能的 ChatGPT ),与智能座舱语音助手模块展现出高度兼容性,促使众多汽车制造商优先采用语音助手模块,并结合大模型技术,实现更精准、强大且丰富的语音交互能力。
目前,基本所有主流车企和 AI 科技供应商都推出了智能座舱的大模型产品,科智咨询在此做了简单整理(见如下表格 )。
车载语音助手
大模型能提供识别更精准、理解力更强的车载语音助手。
以往座舱智能化里的助手回答较为生硬,有了大模型后,助手可实现 “高智商” 和 “高情商” 地回应问题。其中,“高智商” 体现为联网后能反馈非常精准的结果,“高情商” 指助手可进行更多维互动。
这是因为此前训练是在线下基于关键词训练而成,传统语音助理对用户意图的理解基于 NLU 算法与 Skill 产品的设计,虽有一定泛化能力,但强化唤醒词技能需人工定义,难以全面覆盖普通消费者个性化语言习惯和话术场景。
随着大模型技术应用,语音识别的准确性、自然性和智能化水平显著提升,为驾驶者提供了更便捷和安全的交互方式。这些技术进步不仅优化了传统的语音识别系统(过去依赖简单命令词或预设语音指令 ),还通过深度学习技术,让大模型学习复杂语音特征和语言模式,实现对自然语言的准确识别与理解。
比如,大模型可解决以下复杂需求 :
复杂语义:“调整座椅靠背到习惯位置,打开空调到合适温度,打开音乐。”
隐含意图:“屏幕也太不清楚了吧”
模糊需求:“我想去吃饭但没想好去哪吃”
开放式需求:“帮我想一想年度总结报告”
车控
在智能座舱的车控领域,大模型应用正日益成为提升驾驶体验的关键技术。大模型能够理解和预测驾驶员需求,实现更个性化、智能化的交互。例如,大模型可分析驾驶员语言指令,准确执行控制命令(如调节空调温度、播放音乐或导航至特定目的地 );还能通过图像识别技术,监测驾驶员面部表情和注意力状态,适时提供提醒或辅助,保障驾驶安全。此外,大模型可控制智能座舱环境,整合温度、湿度传感器及空气质量监测器等数据,感知座舱内实际温度、湿度和空气状况,基于用户偏好或座舱的设定,智能座舱系统可调节空调来控制座舱温度与湿度,调整通风系统和空气过滤器,确保座舱内空气质量达到舒适、健康标准。
大模型有助于智能汽车更好理解传统车控意图,基于大模型,将不断提升驾驶安全性、优化用户体验、提升座舱舒适性。
车外语音
赛轮思发布车外语音交互技术(Cerence Exterior Vehicle Communication),最新科研成果显示,这是一套将 AI 和语音完美结合的创新组合,支持驾驶者在车外与汽车交互。通过集成语音识别、自然语言理解、TPS、语音信号增强和声纹验证等技术,构建一系列新用户场景。
Cerence 外部车辆通讯使这些看似未来的互动成为现实。这套由人工智能和语音驱动的创新技术,融合语音识别、自然语言理解、语音合成、语音信号增强和语音生物识别技术,与当今汽车上越来越多的外部麦克风相结合,让驾驶者能在车外与汽车交互。
多模态交互
多模态交互是智能座舱发展的新方向,融合了语音、视觉、触觉等多种感官输入方式,为用户提供更丰富、直观的交互体验。大模型技术在该领域的应用,让智能座舱更全面理解用户需求,提供更个性化、智能化的服务。
在驾驶环境中,单一交互方式往往难以满足用户复杂多变的需求。多模态交互通过整合多种感官信息,能提供更直观、自然的交互体验。例如,用户可通过语音发出指令,同时用手势或面部表情辅助表达,使交互更高效、准确。
视觉识别与图像处理:大模型可凭借深度学习和计算机视觉技术,分析处理座舱内图像数据,识别驾驶者面部表情、手势动作等非语言交互信号,并转化为相应指令和反馈。
触觉感知与反馈:大模型能够分析座椅传感器数据、振动信号等触觉感知信息,进一步增强座椅响应能力。比如,依据驾驶者体态和行为,智能调节座椅支撑力与按摩力度,提供更舒适的驾驶体验。
情感识别:大模型可通过分析用户语音、面部表情等信息,识别用户情感状态,提供更贴心的交互体验 。
健康识别:结合乘客个人健康数据和座舱环境信息,AI 大模型能提供个性化健康管理方案。健康类传感器可提供心率、血压等生物识别数值,AI 大模型实时监测与数据分析后,可进一步开展安全预警或驾驶分析,保障驾驶安全 。
理想汽车的 OTA 5.0 系统是典型多模态交互案例。该系统通过覆盖全车多音区的数字硅麦、3D ToF 摄像头、IR 传感器,以及基于空间多模态感知 3M 技术,实现对舱内空间多模态信息的充分感知。例如,当驾驶员说话时,理想汽车会同时进行语音和图像识别,通过驾驶员头部向右偏转的角度,判断说话对象是车载语音助手还是副驾驶乘客,进而做出反馈。
总结
短期内,智能座舱系统会借助先进大模型技术,深入挖掘线下数据潜力。通过精准数据挖掘技术,系统能从海量用户交互数据中洞察行为模式和趋势,显著提升人工智能模型的准确性与效能。比如,深入分析用户语音指令与系统反馈,有助于精细化调整自然语言理解(NLU )算法,实现更精准的语义解析。
展望中期,大模型技术将为智能座舱系统的坚实后盾,面对复杂或棘手的情况时,提供强大解决方案。现有系统处理某些问题可能存在局限,而大模型凭借卓越学习能力与泛化能力,能更从容应对这些挑战。
放眼长期,大模型会融入智能座舱核心,逐步取代传统的云 + 端 NLU 系统架构。这种转变意味着智能座舱不再依赖云端计算资源,而是直接利用大模型在本地高效处理所有 NLU 任务,不仅大幅缩短响应时间,还将极大提升处理效率,引领智能座舱系统迈向更智能、自主的未来。
大模型在智能座舱中的应用案例
思必驰
思必驰是国内专业的对话式人工智能平台型企业,服务领域覆盖智能汽车、智能家电、消费电子等物联网领域及数字政企客户,提供智能人机交互软件产品、软硬一体化人工智能产品以及对话式人工智能技术服务。目前合作 54 个汽车品牌,160 款量产车型,1000 + 万上车辆,国内新能源车载语音市场占有率第一,车载语音全行业 top3。
2023 年 7 月,思必驰发布针对垂域、具有通用智能的行业语言大模型 DFM - 2,针对通用模型行业适配难、环境知识无法包含、专用领域理解性能不足等问题进行技术改造,形成 DFM - 2 行业大模型,具备场景专业化、模型专用化、体验专精化三大特点。通过与大模型能力相结合,思必驰的天琴车载语音助手在规划技术、创作能力、知识以及干预能力、插件能力、多层次语义对话以及文档能力上实现大幅提升,为用户提供更高端的智能座舱体验。
通过大模型的能力加持,思必驰的天琴语音助手可打通旅游、导航、美食、加油、日程提醒等多源信息,串联 200 多家生态服务,为用户提供更智能的出行规划。基于汽车领域知识、大模型能力构建的 “汽车大师”,不仅能为用户提供随时随地的用车咨询,还可适配用户场景并执行指令动作,实现智能场景自定义。以大模型能力打造的虚拟情感助理,具备多人设、多情感交互,可为用户提供个性化情感陪伴。大模型还支持儿童模式、图 / 文生成等功能,让每个人都能成为灵感创作大师 。
商汤绝影
商汤科技以 “多模态场景大脑” 为核心的 AI 大模型座舱产品矩阵,结合多种 AI 模型,为智能座舱注入强大环境理解和内容生成能力。商汤绝影的多模态场景大脑能准确全面 “感知” 环境信息,推出的 AI 大模型座舱产品为座舱外部提供专业健康管理服务,“神笔”将简单绘画转 变成艺术作品,⽤户可通过眼神或⼿势与汽⻋交互。
商汤绝影的技术实⼒得益于算⼒、算法、量 产经验、软硬件架构等四⼤技术基座,已与超30 家⻋企合作,覆盖超90款⻋型,累计交付195万 辆智能汽⻋,展现了其技术的成熟度、可靠性和在智能汽⻋领域的⼲泛影响⼒。 商汤科技在智能座舱交互技术⽅⾯推出了3D Gaze⾼精视线交互和3D动态⼿势交互技术。这 些技术允许⽤户通过⾃然的眼神和⼿势与⻋辆进⾏交互,提升了⽤户体验的直观性和便捷性,标 志着智能汽⻋交互技术的⼀次重⼤进步。
2.3 大模型在生产和制造领域的应用
在汽车设计与研发阶段,大模型技术发挥着关键效能。它不仅助力企业优化工艺流程,还能依托数字孪生与 AI 技术,智能剖析生产数据,进一步提升工艺设计的精准度与效率。
生产环节里,大模型可优化生产线布局、供应链管理,预测生产数据,进而提升生产效率与产品质量。借助大模型优化供应链管理,汽车制造商能降低成本、减少废品,更灵活应对市场需求波动。宝马、奔驰、通用等国际知名汽车品牌,已成功运用大模型技术提升生产效率与质量,这些案例为国内车企提供了宝贵借鉴。
在汽车设计制造等需编写代码的环节,大模型同样作用显著。正如阿里云智能副总裁、科技研究中心主任安筱鹏所言:“人工智能会重构软件体系,所有与软件代码相关的体系都将被重塑,人工智能将驱动软件开发模式变革,带来整个软件体系的自主优化升级,引发整个制造业体系的变革。” 这表明,大模型技术不仅在汽车行业,在整个制造业乃至更广泛领域,都将扮演愈发重要的角色。
大模型在整车和零部件设计中的应用
在汽车零部件设计领域,AI 大模型的助力体现在硬件与软件设计两个维度。
硬件设计时,传统流程往往需要设计师查阅海量资料,借助开发工具查找同类或相关产品的诸多参数,再针对新应用目标展开开发,该过程耗时久且易出错。而 AI 大模型的 “学习” 能力与计算优势,可更智能地进行分析、筛选与求解。大模型能在构建数字仿真模型时,给出力学强度、材料优化、尺寸设计及仿真测试等方面的优化方案,节省设计时间,提升零部件材料利用率、性能、尺寸精度与寿命等指标,甚至优化制造工艺,压缩新产品验证周期。
最为复杂的设计环节,曾需工程师在 2 万多个零部件、数十万个参数中绘图,以满足需求的各种组合,进一步编写文档、绘制图纸。有了 AI 大模型后,工程师只需描述需求,大模型就能高效找到所需组合信息,自动生成设计文档初稿,大幅缩短汽车研发周期、降低成本。
软件设计方面,AI 大模型可处理海量数据,辅助设计师生成创意、进行性能验证与仿真,加速车辆开发周期。此外,大模型还能开展车辆动力学仿真、碰撞测试、燃料效率优化等工作,助力工程师提升设计开发效率与质量。
AI 大模型在智能汽车中的应用,不仅显著提升硬件与软件设计的效率和质量,还通过简化复杂设计环节,极大缩短研发周期、降低成本。
吉利集团案例
吉利的星睿 AI 大模型,是将自研的 NLP 语言处理模型与 NPDS 研发体系及其全链路场景数据库深度融合的范例。它支持研发人员在造型设计、机械设计、质量控制等方面应用,也用于自动驾驶虚拟训练。通过这种模式,吉利能够缩短约 30% 的验证周期,节约近 50% 的开发成本。
大模型在编写代码中的应用
代码编写上,传统车企开发团队依赖人工编写,一年或许仅能写出数千万行代码。借助 AI 大模型,不仅效率提升更快,还能实现快速自动生成代码,这不仅会重构软件代码体系,还将带动整个零部件设计体系变革。例如,分析大量车辆运行与充电数据,零部件企业可优化电池管理系统与充电策略,提升电池性能与寿命。此外,大模型还能协助企业设计更高效的电驱动系统与能量回收系统,提升新能源汽车续航里程与能源利用效率。
一汽集团
中国一汽正尝试用大模型降低汽车产品设计开发门槛、提升研发效率。“我们的开发团队一年内共编写了整整 4296 万行代码。现在有了大模型,至少一半的代码可交由大模型编写。”目前,中国一汽已实现自动化设计、自动化绘图、自动化代码生成,基于模型的系统工程持续迭代。过去 24 个月打造一个车型,如今已能以周为单位衡量。
腾讯云大模型
腾讯云 AI 代码助手,可辅助软件工程师编写、补充、诊断和测试代码,提升自动驾驶等研发环节效率。腾讯在对某客户的试点中发现,AI 代码助手助力其整体开发人效提升了 7%。
科大讯飞
科大讯飞推出搭载讯飞星火 V3.0 的智能编程助手 iFlyCode 2.0,能赋能开发者,降低软件开发专业门槛,在编程设计阶段提效 50%、开发阶段提效 37%、测试阶段提效 44% 。针对汽车行业,构建汽车专业知识库,提升汽车研发知识问答效果;通过私有代码库专项训练,强化汽车代码研发成效。
⼤模型在汽⻋⽣产中的应⽤
此外,在很多汽⻋的⽣产领域都可以应⽤⼤模型技术,这⾥整理了⼀些应⽤场景。
大模型在汽车质检中的应用
以广汽本田全车车灯质检为例,汽车车灯质检有两道关键关卡:一是检测车灯是否装错,二是检测车灯有无故障、能否点亮,检查点多达 22 处。传统人工肉眼质检流程繁琐,如同 “摆摊”:先在被测车辆前后各放 2 面大镜子,再由质检员坐车里对着 4 面镜子观察,凭经验识别不同车型及配套车灯,之后用纸质表单手动登记检验结果,存在不少问题:一是人工检测考验经验与肉眼视力,速度慢、易漏检、标准难统一,且眼睛长时间接触光源易疲劳,埋下质量隐患;二是人工录入检测结果、没有实物数字化,难以高效进行追溯,车型 / 车灯物料偏差后难追溯,形成了遇到问题才分析原因的惯性,严重影响整体组装效率。
百度智能云视觉智能平台解决方案
广汽本田依托百度智能云工业视觉智能化一体化解决方案,成为本田全球首家引入智能质检技术的子公司。这套基于百度工业视觉智能平台的方案,实现了全流程、图形化、零代码的 AI 视觉模型生产,助力广汽本田完成视觉数据管理、图像数据标注、视觉模型训练、模型预测和模型下发等全流程能力。在百度智能云助力下,广汽本田大幅提升质检效率。具体而言,通过在产线装设 7 台球型摄像机实现全方位检测,展现出 “准”“快”“全” 的惊艳效果:准,可自动识别多达 6 款车型,以及同一款车型的不同车灯配置,准确率高达 99%;快,针对单一车型的 22 种以上车灯,可通过 7 台相机同步拍摄,同步计算 120 张细节图片,检测全程仅需 1 秒;全,通过高速扫码器自动扫描车头规格纸的二维码,识别不同型号,根据型号从系统中调取手工配置的产品标准进行检验,并存储过程数据用于质量追溯。
百度智能云开物的跨场景适用性同样出色,全车车灯识别只是冰山一角,异曲同工的整车内饰及外观检测方案已成功推出,即将在洗车线前端或地坑检测工位部署设备,通过机械臂实现对车辆选装外饰、车灯、内饰选配、电动座椅调节、车反光镜微调、雨刷器高低速等信息的检测,同时借助底盘检测相机,完成对底盘的质量检测。
2.4 大模型在汽车销售及售后领域的应用
大模型在汽车行业数字化营销的各环节(如销售、广告、售后、商品定价策略等 )均有应用空间,不过目前仍以传统机器学习小模型为主,大模型发展潜力巨大。
汽车销售环节,传统销售流程从客户线索到成单链条长,销售效率低。经大模型优化,整个营销链条基于大模型进行端到端重构,主机厂销售效率将大幅提升。以奇瑞旗下捷途正计划用大模型辅导销售员卖车为例,捷途借助火山引擎的模型能力,对销量下滑区域进行电话语音质检,发现这些区域 80% 的销售额,其问话水平分低于 40 分,销售在跟客户沟通时比较直接,存在缺少需求沟通、同理心等问题。用大模型辅导培训销售人员,可更及时、准确地分析销售问题并做针对性改进。这只是大模型在汽车行业销售的一个例子,在众多其他领域,大模型也有用武之地。
三、汽车⾏业⼤模型应用变⾰
3.1 大模型技术将助力端到端的类人自动驾驶落地
什么是端到端方案?
当下,国内消费市场的智能驾驶系统,采用的均为传统模块化方案,也就是把自动驾驶任务拆分成感知、预测、规划这三个独立模型,之后再通过系统集成,来完成整个自动驾驶任务。具体而言,依靠激光雷达、摄像头等传感器,收集车辆周围环境数据,再用人工标注数据训练出的模型,识别常见重要目标与各类障碍物(此为感知模块 );接着配合高精地图,让系统知晓道路变化情况;最后凭借工程师编写代码形成的规则,决定车辆行驶方式(即预测、规划模块 )。
3.2 大模型技术将重构自动驾驶产业链
数据、算力、算法给车企造成新挑战的背景分析
① 自动驾驶的数据闭环要求车企和供应商合作
大语言模型以 Transformer 架构为基础,依据 OpenAI 的 Scaling Law,模型性能由模型大小、数据集大小以及训练计算量决定,和具体结构关联度较低,高质量数据集是提升性能的关键,企业数据资产成为自动驾驶应用的护城河。
轻舟智航 CEO 于骞称,开发方式正从以模型为中心转向以数据为中心,仅靠数据提升就能改善模型表现,可见数据在自动驾驶大模型训练中至关重要。
当前,自动驾驶数据闭环存在诸多问题,车企或供应商自身难以覆盖全流程所需技术与数据。数据闭环包含多环节,车企和供应商面临获取海量行车数据的难题,特斯拉认为完成端到端自动驾驶训练需 1000 万个视频案例,且对数据质量(高质量、分布多样 )要求高,开发难度大、成本高昂,数据依赖量超车型 80% 以上。无车时难以收集真实脱敏行车数据,模型效果提升也需更多数据,随着量产车入市,会收集更多数据用于训练算法。
在国内,数据闭环工作常由外包供应商、大模型平台公司和车企共同完成,车企若全程自研或延迟推进进程,一种解决办法是平台级公司设计基础层大模型,车企掌握标注规则,第三方处理人工审核,车企拿回标注好的数据自行训练,如此车企可处于价值链条核心,避免受制于人,也就是采用 “全家桶” 方案。目前虽车企用大模型渐多,但尚无一家实现数据闭环 。
② ⽇益增⻓的算⼒要求⻋企和云服务商合作
从算⼒⾓度,GPU和TPU等硬件技术的进步 使得⼤模型的训练时间⼤幅缩短,同时也使模型 规模和性能不断提⾼。硬件的进步极⼤地赋能了 算法的研究和突破。然⽽,算⼒⽅⾯也⾯临着巨⼤的挑战。解决许多复杂问题要求极⼤的算⼒,只有少数⼤企业和研究机构能够承担这些⾼昂的算⼒成本。此外,⼤规模的算⼒使⽤也引发了能源消耗和环境问题,引起了越来越⼤的社会争议, 未来的⼈⼯智能解决⽅案需要将能源⾼效作为发展目标之⼀。
算力和数据规模决定未来自动驾驶系统的迭代能力。以特斯拉为例,当前特斯拉拥有近 10 万张英伟达的 A100,位居全球 top5,其很早就拥有整个行业最强的 AI 算力储备,是美国算力储备排名第一的车企。
③ 车企全栈自研自动驾驶算法面临困难
智能驾驶时代,车企自动驾驶算法自研难度高,仅少数企业能覆盖感知算法、规划算法、控制算法的开发,多数车企只能通过合作开发、传统外购方式布局智驾算法。
车企研发自动驾驶算法时,可选择传统采购智驾方案商服务的模式,也能和方案商合作开发,或自研部分规划算法,把控一些控制算法,还可全部自研。这取决于车企自身资源、发展阶段,以及供应商能否满足车企迭代需求、供应链把控等情况,车企会据此选择不同开发方式,这和此前车企独自完成所有技术研发大不相同。
以算法自研为例,当前更多车企 “算法自研” 的模式是设立独立部门作为 Tier 0.5 角色,由 Tier 0.5 自研部分算法(如规划控制 )并集成部分外部供应商优质算法(如感知 ),若该 Tier 0.5 是独立公司(车企部分持股),可能出现车企与该 Tier 0.5 互不信任的状况;智驾功能体验差异多体现在规划与控制层,越来越多车企选择通过供应商获取感知模块,自身聚焦规划与控制技术战略。
主机厂和供应商合作中求生存
① 大模型改变了传统车企的研发方式
汽车架构形态正从机械化快速向电子化、数字化、智能化演变,汽车逐渐成为新型智能终端。大模型上车后,会改变汽车车载系统等底层产品的定义,重新塑造人机交互及相关服务生态。
此前,汽车产品由传统整车车企合作打造即可,产业封闭性强;如今,汽车产品内容与属性改变,所需核心能力和资源日益多元且跨界,产业开放性不断增强。这种情况下,仅靠传统整车企业已不够,必须跨行业、跨领域、跨环节整合各方资源,协同创新,构建相互交融、互为支撑的技术生态、应用生态和服务生态,才能打造有竞争力的汽车产品。由此,多方参与、专业分工、有效协同的新型合作业态逐步形成,传统汽车业态中以硬件为主的零部件企业,正被 “新汽车” 业态中涵盖硬件、软件、内容、服务等提供商的供应链取代。
车企和 Tier 1 供应商需重新界定合作边界与模式,共同应对端到端自动驾驶带来的技术挑战与市场机遇。车企要和供应商一起构建强大的黄金三角 —— 算力、数据和算法,才能在新技术浪潮中保持竞争力,最终实现自动驾驶商业化落地 。
② 科技企业入局和车企进行竞争
过去很长时间,传统车企主机厂在供应链中,主要是提需求、验收,最后进行集成装配,供应商按主机厂要求完成研发和交付工作。现在,车企与供应商的耦合深度大幅增加,部分领域车企会主导绝大部分软硬件开发,供应商需提供必要协作,同时定制化程度提升,供应商和车企围绕高利润率的自动驾驶等领域,展开主导权争夺。
依据微笑曲线理论,任何产业链中,价值最丰厚的区域通常集中在价值链两端,即研发和市场。具体到自动驾驶领域,生产制造是汽车产业基础,但在微笑曲线里,它处于附加值较低部分,原因是制造过程往往标准化、自动化,且在全球范围内竞争激烈,导致利润微薄。传统车企想把控附加值高的智能座舱、自动驾驶等模块,但车企因自身禀赋,在传统整车制造领域优势渐弱,科技企业借此带来跨界融合竞争,车企和科技企业为争夺高附加值模块,展开较量与竞争。
为争夺自动驾驶方案主导权,车企和供应商合作存在诸多磨合问题,“黑盒方案” 在自动驾驶技术领域逐渐凸显。黑盒方案指软硬件紧耦合,难以拆解,即把芯片和感知算法封装在一起,客户只能购买,无法更改,虽知其然,但不知其所以然。这种软硬件紧耦合模式限制用户自主性,主要源于科技企业供应商不愿把核心技术交给车企,放弃主导权。
· 钛祺智库·
1、如欲获取完整版PDF文件,可以关注钛祺汽车官网—>智库,也可以添加钛祺小助理微信,回复“报告名称:汽车行业大模型应用研究报告(2025) ”
2、钛祺智库目前已收录2500+篇汽车行业最新技术报告,供行业朋友查阅、参考。
3、钛祺智库持续更新、收录行业深度技术文章、研究报告,并不定期上传行业专家特约文章,为汽车行业朋友提供专业支持。
请注册账号,免费下载报告:https://doc.taiqiol.com/m/Register.aspx;
热门跟贴