大模型上车有多难？|大模型|数据挖掘|数据量|汽车|算法

日前，中国电动汽车百人会发布调研报告《全球及我国新能源汽车产业发展趋势与政策走向》。报告指出，探索大模型在汽车领域的应用仍面临诸多挑战，并给出了相应建议。

1ONE

挑战

目前，国内企业面临训练芯片“卡脖子”问题。

大模型云端训练需要上万片高端GPU训练芯片，尤其是端到端自动驾驶训练数据量已达到PB级，训练芯片需求更大。特斯拉端到端自动驾驶FSD V12在超过10万块GPU芯片支撑下才实现周级迭代。国内多数车企仅有上千块GPU，很难发挥海量数据价值并实现较好的训练效果。

大模型在云端提供服务也需要大量算力支撑，以ChatGPT为例，按照每天独立访问量2500万次计算，预计需要3万多片A100芯片。目前，美国对华禁售A100、H100高性能GPU芯片，甚至也限制出售“阉割”版的A800、H800。

同时，国产芯片仍存在制程落后、性能不足等问题，部分芯片在大规模训练时故障率较高，使用体验仍有欠缺，导致我国车企的算力扩展遇到很大阻力。

国内大模型训练数据量少且质量不高。数量方面，据Epoch AI估算，全球用于训练通用大模型的数据中，书籍、科研论文等高质量语言数据集可能会在2024 年前耗尽，大模型训练或将面临无数据可用的窘境。中文语料数据仅占约1.3%，Common Crawl、BooksCorpus、WiKi pedia、ROOT等主流数据集都以英文为主，即使是最流行的Common Crawl数据集，中文数据也只占4.8%。另外，大模型理解和掌握客观世界规律，需要学习大量来自知识和价值观层的数据，此类中文语料短缺严重，甚至无法通过机器翻译进行弥补。聚焦自动驾驶领域，特斯拉拥有超过1000万个有效视频片段数据，且其在全球有超过600万辆智能汽车在通过影子模式持续采集数据，平均每辆车一天就能搜集到一个典型的极端工况样本。与之相比，国内车企场景数据普遍不足百万，且出于数据合规的考虑，车企之间数据的共享流通仍有阻塞，导致国内车企的高价值场景数据较特斯拉相差超过一个数量级。

质量方面，高质量数据集，需要企业在数据治理方面投入巨大的资金和精力，包括顶层设计、标注规范、标注质量把控以及发布后更新升级等各个方面，但国内企业在数据挖掘和数据治理领域的积累和沉淀不足。汽车行业属于传统制造业，数据的沉淀更是差强人意。这使得大模型在汽车行业落地应用过程中，存在明显的训练数据分布不均衡及完备性较差等问题。例如，国内车企的绝大部分数据分布在几个密集的场景里，“头部效应”非常明显，真正需要的极端工况数据却非常少。且国内车企车型多而单一车型存量少，不同车型的传感器功能不一样，采集的数据各有差异。与特斯拉车型相对集中且传感器方案比较统一相比，国内车企数据的复用性很差。

数据问题不解决，大模型可能会形成“偏科”，导致产生严重的“幻觉”问题，由于汽车行业本身对安全性和可靠性的要求极高，这也会大大限制大模型的应用落地。

落地商业模式不清晰。一方面，大模型处于发展初期，主要以Token使用量收费。从TO B模式来看，车企每年的预算、成本、营收是固定的，以Token使用量来收费的模式动态性太大，车企难以接受。

另一方面，“软件+服务”的模式，在国内很难得到认可。在汽车行业“内卷”越来越严重的当下，纯license模式也难以持续，企业付费意愿不高。此外，大模型商业化的价值，还是以提升车企产品销量的传统方式为主，车企、大模型企业双方还未找到可以合作共赢的路径。

缺乏良性合作生态支撑。一是贯穿实时信息以及垂类信息的数据生态还未形成，导致大模型对实时动态和垂直领域的理解能力比较差。例如，GPT-3.5训练数据集截止到2021年，无法理解和处理2022年的信息。

二是大模型上车会对整车软件架构、硬件能力、交互策略产生很大影响。目前国内大模型产品非常多且迭代速度非常快，如何在保证产品竞争力的前提下与大模型企业合作，车企仍存疑惑。

三是开源大模型没有一个是由中国完全主导的，势必会影响国内AI技术的迭代速度与创新能力。在全球化竞争日益激烈的背景下，没有主导的开源大模型，可能使中国AI企业在国际市场上处于不利地位。

缺乏大模型能力评价标准。行业和消费者对大模型上车的期望都很高，但对其表现的诉求“千人千面”。有些人希望大模型无所不能，对所有的问题都能答复。有些人希望简洁，只要按照指令操作即可。如何评价大模型在具体场景下的能力，仍然没有明确、统一的标准。例如，当前大模型在语音交互的语言理解、逻辑推理、信息归纳等能力方面，已经有很多评价指标，但是在上车评价方面，仍面临识别准确率的评判局限、响应速度评价单一、用户体验受主观性和复杂性拘束、缺乏多场景综合评估等挑战。

2TWO

建议

加强大模型对汽车行业颠覆性影响的认识。汽车行业的根本是制造业，大模型创新发展的速度远远超出了汽车产业，两个产业融合会对汽车产业产生深刻甚至颠覆性的影响。汽车行业需要从战略上刷新认知，顺应技术发展趋势，加快拥抱和接纳大模型的速度，充分利用大模型加快汽车产业智能化发展的步伐。

建立适应大模型发展的管理机制。智能汽车的快速发展是多部门共同推进的结果，大模型在汽车行业的落地应用是一个系统性工程，需要算力、算法、信息传输等多层面能力的共同支持，更需要政府部门统筹推进，建立一个适应大模型发展的管理机制。在技术相对落后的情况下，发挥我国多系统协同的能力和优势，从而探索出差异化的发展道路。

加强试点示范。目前，国内通过备案的大模型达117个，但真正实现商业变现的很少，关键是没有找到核心的应用场景。建议选择具有代表性的车企和大模型企业，开展试点示范项目，通过应用驱动的方式，探索大模型在汽车领域的高价值应用场景，形成可复制、可推广的经验模式，促进大模型的可持续健康发展。

加快推动算力共享。以美国为代表的发达国家的AI和芯片，已经形成软硬件相互促进的合力。为弥补算力短板，建议政府部门和行业机构推动建立算力联盟，把部分公共属性的算力统筹起来。或者鼓励企业揭榜挂帅，将国内各公司分散的算力集中起来，推动算力资源共享，解决AI基建不足的问题。

促进汽车数据共享与流通。一方面，加快制定汽车数据定价、权责划分、流通交易等基础制度，消除相关法规壁垒，促进汽车数据大规模流通，增加可供大模型训练的数据量。

另一方面，借鉴北京市政府开放市区级单位高质量政务数据的做法，在合法、保证隐私的前提下逐步放开部委、地方政府的政务数据并积极引导行业机构释放部分高质量数据，形成通用型数据集并对外公开，比如地理信息涉密等级、AI内容生成涉及的道德、伦理、法规等相关信息。

此外，加大对数据合成、仿真数据方面的支持力度，适当鼓励并推动合成数据的应用，弥补国内车企数据不足的短板。

构建开放性合作生态。发挥好车企的链主角色，推动形成面向全行业的开放平台。车企把握数据入口，供应商提供算法、算力，共同打造能力共享、灵活组合的开放性生态，协同推动汽车行业大模型的发展。

加快建立大模型上车与评价标准体系。在行业机构的牵头下，根据差异化落地场景，分步骤推动大模型上车评价标准和宣传体系的建立。可优先推动进展较快的人机交互等应用场景。