「前瞻解读」2024-2029年中国大语言模型行业与国外对比分析|算法|语料

行业主要上市公司：百川智能(A04400.SH)、昆仑万维(300418.SZ)、拓维信息(002261.SZ)、浪潮信息(000977.SZ)、科大讯飞(002230.SZ)等

国内外主要大语言模型数据集

得益于开源共创的互联网生态，海外已有大量优质、结构化的开源数据库，文本来源既包含严谨的学术写作、百科知识，也包含文学作品、新闻媒体、社交网站、流行内容等，更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态，国内开源数据集在数据规模和语料质量上相比海外仍有较大差距，数据来源较为单一，且更新频率较低，从而导致模型的训练效果受限。因此，大模型厂商的自有数据和处理能力构成模型训练效果差异化的核心。受益于移动互联网时代积累的海量用户、应用和数据，互联网企业在自有数据上更具特色化和独占性，叠加更强大的数据处理能力，从而能够通过数据优势带来模型训练成果的差异。例如，阿里在研发M6时，构建了最大的中文多模态预训练数据集M6-Corpus，包含超过1.9TB图像和292GB文本，涵盖百科全书、网页爬虫、问答、论坛、产品说明等数据来源，并设计了完善的清洁程序以确保数据质量。百度ERNIE模型的训练数据集中也运用了大量百度百科、百度搜索以及百度知识图谱等生态内数据，通过更高质量的数据保障了模型的训练效果。

国内外主要大语言模型研发路径与技术对比

在大语言模型(LLMs)的全球竞技场中，ChatGPT与Google的Gopher、LaMDA，以及Meta的Llama等构成了国际标杆，而国内则由百度的“文心一言”、360的大语言模型、阿里的“通义千问”和商汤的“商量”等引领潮流。从对话和文本生成能力的角度，ChatGPT暂居优势，但这并非因为技术壁垒不可逾越。实际上，Google等国外企业因战略和技术理念选择了不同的发展路径，这是其暂时落后的主因。随着新技术的不断涌现，赶超ChatGPT并非不可能。相对而言，百度等国内企业在数据集、计算能力和工程化方面存在短板，短期内难以实现对国外模型的迎头赶上，这更多地需要国内AI产业全链条的协同进步。

在影响大语言模型性能的因素方面，训练数据、模型规模(即参数数量)、生成算法和优化技术被认为是核心变量。然而，如何准确量化这些因素对模型性能的具体影响，目前还处于探索阶段，没有明确的结论。总体来看，世界顶级的大语言模型在技术层面上尚未拉开明显的差距。

注：该图表数据截至2024年1月。

大语言模型相关上市公司业务布局对比

国内大语言模型发展迅速，相关上市公司通过直接开发产品、投资科研团队或与行业内头部企业进行深度合作等方式，对大语言模型进行深度布局，相关产品包括Baichuan
3、天工3.0、交通CV大模型等。具体如下表所示：

大语言模型相关上市公司业务规划对比

总体来看，大语言模型相关上市公司在未来业务规划方面，主要聚焦于算力、算法的提升以及探索更加多样化的落地场景。此外，多家上市公司在产品开发领域，将逐步由大语言模型逐步转化为综合大模型，从而实现更加全面的功能，以适应更加多维的应用场景。

更多本行业研究分析详见前瞻产业研究院《中国大模型产业发展前景与投资战略规划分析报告》。

同时前瞻产业研究院还提供产业大数据、产业研究报告、产业规划、园区规划、产业招商、产业图谱、智慧招商系统、行业地位证明、IPO咨询/募投可研、专精特新小巨人申报等解决方案。在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容，需要获取前瞻产业研究院的正规授权。