大模型数据之二｜中美大模型的竞争之路：从训练数据讲起|大模型|算法|训练数据|语料库

阿里研究院

12/28

2023

本期导语

近年来，美国陆续出台芯片法案、人工智能倡议法案等规则，中美科技战越演愈烈。这是一场交织着技术、产业、经济、政治和全球博弈等多重复杂和综合因素的地缘政治冲突，是中美高科技领域近几十年来竞合和博弈的必然结果。

在这一轮AI大模型竞争中，美国作为AI的重要发源地，拥有众多技术巨头和顶尖研究机构，一直处于领先地位，美国科技公司2023年先后推出高性能的大模型及其升级版，如OpenAI的GPT-4、Google的Gemini模型等；中国则通过前期AI应用的技术积累和科技企业的大量投入，推出阿里巴巴的“通义千问”、百度的“文心一言”等大模型，成为和美国竞争的重要力量。

从训练数据角度来看，中美的数据来源有何差异？公共数据的开放和运营能否成为中文语料的竞争优势？建设中国版大模型数据我们该怎么做？带着这些问题，承接上一期内容，本期专题和大家聊一聊中美大模型训练数据来源，谈一谈如何让大模型底层更为坚实，希望引发一些政策和制度设计层面的思考与共鸣。

一

训练数据从何而来？中美做法迥异

分析大模型的数据来源可以从政府和社会力量两方面入手。从政府视角看，哪些公共数据可以支持大模型训练？我们梳理了以下几种：

一是，经过权威认证或凝聚共识的知识，如专利文档、上市公司财报、法院判例/裁判文书、医疗诊断记录、政策文本等，除了可用于预训练语料，还可应用于行业大模型监督微调(SFT)或外挂语料库建设。二是，提供公共管理和服务的counting属性数据，如公共交通、供水、供电、供气等，可用于提升模型多线程处理，调度优化能力。三是，具有科研属性的数据，主要特征有长周期、大规模、多模态、来源清晰、描述详细、可使用，如天气、医疗、地球科学、基础科学领域等，用于AI for Science，让模型提升从复杂数据中提炼规律，提升精准预测的能力，同时拓展AI大模型在更多领域中应用。四是，科研期刊论文，用于提升模型上下文的理解能力和逻辑推理能力。

而社会力量整合政府开放数据与网络公开数据，在拓展广度的同时，提升精细度和专业性。“广”的层面，社会力量将公共数据与网络公开数据融合后做进一步清洗和加工，形成具有多样性、大规模、高质量特点的预训练数据集。“齐”的层面，社会力量通过大量高质量反馈做数据标注，将模型产出与人类价值观对齐。“专”的层面，也会整合领域知识和经验，促进语料的流通和共享，提供行业大模型所需的高质量、专业性的数据供给。由此可见社会力量在大模型训练语料中所起到的主导作用。

那么，美国与中国在获取大模型数据方面的做法有哪些不同呢？

美国

美国联邦政府在公共数据中承担了”应开尽开“的职责，由社会力量来探索数据的应用。政府开发了专门针对AI训练数据的开放平台，并针对公共数据和科研数据进行质量维护和运营管理，在保证数据可用性的同时降低公众使用门槛。公共数据开放的范围限定在政府数据，包括各级政府及政府资助的大学和研究机构。

在开放共享阶段，联邦政府会对与AI相关的数据做标识、在数据量大时做”上云“处理、定期更新、分类、清洗、标注、结构化、并确定分级开放权限。在开发利用阶段，政府会提供便捷的用户检索服务、提供数据接口API。在科研论文方面，设立PubMed 论文检索系统，整合国家医学图书馆下属的3个论文数据库资源，记录了3600万+条生物医学文献的引用和摘要，并提供原文链接。在科研属性公共数据方面，国家气象和海洋局(NOAA)从卫星、雷达、船舶等来源每天新产生数十TB数据，按季度更新150个数据集，因数据量庞大存储在云端。为方便公众开发利用，提供了数据集API接口。在权威认证的知识方面，如法院的裁判文书是很好的结构化数据，对于训练法律大模型价值很高。美国遵循“公开是原则，不公开是例外”的理念，除了隐去涉及国家秘密和个人隐私的信息，联邦和地方法院都实现了公开，并提供了API接口供调用。

美国的社会力量整合政府的开放数据与网络的公开数据，提升数据精细度和专业性，形成以开源为主的高质量训练语料。社会力量主要有开源/非盈利组织、互联网公司研究部门、学界、多类型机构合作组成。数据集以开源为主，站在前人的肩膀上不断迭代。以在大模型中被广泛应用的，由开源组织Eleuther AI开发的825GB英文语料库The Pile为例，在22个子数据集中，来源于政府公共数据的有4个（PubMed数据库、商标专利数据库、卫生研究院数据等）。在行业大模型中，社会力量对领域数据集的专业性也起到了重要贡献。以把大模型当做大脑来辅助运行的具身智能机器人为例，Google DeepMind 联合33家学术实验室，汇集了来自 22 种不同机器人类型数据，涵盖100多万条片段，展示机器人在15万项任务上的表现，创建Open X-Embodiment 开源数据集。基于该数据集训练的具身智能模型，解决了机器人在特定任务专业而通用能力差的难题，成功率提高 50%，技能表现提高 2 倍。

在政府与社会力量协同的方面，美国联邦政府发挥了AI训练数据“汇聚融合”的角色。为巩固美国在AI领域的竞争优势，由政府主导推动为期6年的国家人工智能研究资源NAIRR 计划，让AI研究者获得更多算力和数据资源。计划的原则是尊重社会力量的专业性，作为经营主体的指导委员会中有多位来自AI业界和学界的资深人士。NAIRR在数据资源整合中发挥的作用体现在，联邦政府通过建立数据资源服务平台，汇聚政府与社会力量的开源数据资源。通过建立统一的数据汇聚标准，规范数据描述格式，促进多方数据融合。倡导AI-Friendly的数据兼容性，将数据集整理和格式化成易于AI算法处理和学习的形式，如文档的电子化程度、版面编排、以及相关数据来源的完整性。同时推动多方协作的数据资源开发利用，如运营数据集社区、提供数据搜索服务等。

中国

我国的公共数据采用主体性质界分，包含各级行政机关在履行公共管理职能中获取的数据，覆盖范围比美国更广，但在开放共享和开发利用程度上仍有不足。如天气数据的开放，在中国气象数据网查询地面逐小时观测资料时，个人用户需注册，且可选范围被限定在7天以内；而对比NOAA，无需注册即可下载，且以地表温度为例，数据最早可追溯到1951年。在开发利用中，我国也仅对个别数据集提供了API接口。再如法律领域，最高人民法院设立了裁判文书网，除例外情况外统一公布各级人民法院的生效判决书。但近年公开的数量有明显下降趋势，2020年上网文书2300多万，而2023年截至12月仅公开300万。另2024年1月将启用“全国法院裁判文书库”，仅法院人士在内网可查询。

我国的社会力量主要是结合海外优质开源数据集及中文语料，产出训练数据集。以阿里巴巴的“通义千问”大模型为例，训练数据来自公开来源的混合数据，以中文和英文为主。而中文语料主要来自知乎、百度百科、百度知道等公开网络数据，来源于政府的公共数据非常少。从总体看，中文语料库的开源情况不如英文普遍，据AI应用开放社区Hugging Face数据统计，中文开源数据集数量仅占比英文开源的11%。在行业大模型中，社会力量对行业数据集专业性有一定贡献，推动了在交通、政务、医疗等领域的应用。整体看，用领域知识训练大模型仍面临困难，第一是领域知识积累的专业门槛高、时间周期长。第二是企业出于商业利益和知识产权考虑，对领域知识共享意愿度低。第三是因为我国公共数据开放不足，导致部分行业缺少优质的数据供给。在这种情况下，如果还要试图缩小已经开放的公共数据范围，那么高质量语料短缺的问题将更为突显。

我国尚未形成对大模型提供有效供给的数据资源生态。相比美国政府以公共数据开放服务于训练语料，社会力量以融合公共数据和网络公开数据提升语料广度、精细度和专业性的生态模式，我国可供大模型训练的有效数据资源呈现碎片化分散状态。中文语料、科研成果等高质量数据集开放程度低，企业用于训练的语料来源不清晰、权属不明确，开源后存在一定的合规隐患，使得企业更倾向于自采、自用，大模型数据流通机制尚未形成。此外，由于过多依赖删除手段治理，导致网络上有中式价值观的高质量公开语料供给较少。

二

建设具有竞争力的中国版大模型，训练数据该去向何方？

根据中美对比的差异，结合我国国情，针对建设中国版通用大模型，我们建议加强政府与社会力量的协同，具体有以下几点：

主动开放人工智能大模型训练公共数据，鼓励受财政支持的科研单位、文化单位开放训练数据

进一步加大大模型训练公共数据的开放力度，借鉴美国经验，在政府侧实现“应开尽开”，由社会力量探索应用场景。对于受财政支持的科研、文化单位所有的知识产权类数据，鼓励通过开放、共享等方式向社会公开，基于非营利性成本补偿原则明确合理收费标准，如国家图书馆收录的大量历史典籍、科研论文等。

加强AI相关数据的标识和开发利用

在政府信息化项目中主动判断或响应市场主体和技术社区要求，对可以用于AI训练的数据源进行主动标识，提高AI相关数据的开发程度、保障AI相关数据的提供质量。此外还应关注AI相关数据集的开发利用，在提升质量的同时降低公众使用门槛，如开发API接口，更便捷的检索体验，大体量数据上云等。同时，积极探索公共数据的授权运营，鼓励社会力量参与大模型训练公共数据集的开发建设。

关注开源数据集的开发，提升数据集质量

社会力量可以汇总整理AI需求数据特征，参与甚至负责AI公共数据集运营。同时还应重点关注数据集的质量提升，一方面建立产业对数据集的评估标准，明确大模型训练语料全面性、准确性、真实性、可靠性、安全性等指标；另一方面根据模型效果和用户的使用反馈，不断优化数据供给。

针对行业大模型，我们建议：

关注领域知识和经验的收集与积累

重点关注工业语料，代码，科研等B端应用语料库的建立和经验传承，定标准、立规范、重引导，根据产业发展实际需求和应用规律提出建设方案。

促进垂直领域知识的流通与共享

领域知识的积累和流通难以用堆积人工方式解决，建议设计机制和提供技术基础设施促进专业语料的生成和共享。如通过隐私计算等技术，在大模型“存算分离”的架构下，实现数据“不动”，物理隔离，激励模型共建共享，接口开放，促进垂直语料共享及模型共建和输出。

致谢：感谢阿里巴巴集团政策法规研究室主任刘明、阿里巴巴集团安全部AI安全负责人陈岳峰、阿里巴巴集团高级算法专家李天宇对本文提供理论支持和技术指导。

参考文献：

[1] The Pile: An 800GB Dataset of Diverse Text for Language Modeling, 2020

[2] Strengthening and Democratizing the U.S. Artificial Intelligence Innovation Ecosystem, 2023

[3] Recommendations for Leveraging Cloud Computing Resources for Federally Funded AI Research and Development, 2020