对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的|ai春晚|大模型|数据量|智源|林咏华|预训练

作者｜周一笑
邮箱｜ zhouyixiao@pingwest.com

本周五，一年一度的AI春晚“北京智源大会”正式开幕。本次大会AI明星浓度，放在全球范围内可能也是独一份：OpenAI Sora负责人Aditya Ramesh作为神秘嘉宾进行了分享，并接受了DiT作者谢赛宁的“拷问”、李开复与张亚勤炉边对话AGI、还集齐了国内大模型“四小龙”，百川智能CEO王小川、智谱AI CEO张鹏、月之暗面CEO杨植麟、面壁智能CEO李大海…… 这还只是第一天上午的开幕式。

为期两天的大会汇聚了图灵奖得主姚期智，以及来自OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等的200余位人工智能顶尖学者和产业专家，涵盖了超过20个不同主题的论坛。这背后的“凝聚力”，离不开智源研究院长期以来对全球大模型开源生态的贡献。

开源数据是其中一个重要的方面，OpenAI在2020年提出了大模型的Scaling Law，揭示了模型规模、训练数据和对应模型效果的关系，通过投入大量的计算资源和数据来训练模型，验证了大力的确可以出奇迹。

自此之后，几乎所有大模型的公司，都在沿着Scaling Law的路线演进，Scaling Law仍然有效也是本次大会嘉宾的一个共识。

智源研究院院长王仲远认为，按照大模型这一发展速度，未来其参数可能会赶上或超过人类大脑参数。随着模型不断迭代升级，对数据量的需求也水涨船高，“数据荒”可能成为制约大模型进一步突破的瓶颈。

根据非营利研究机构Epoch研究所的分析，到2026年，大模型可能会耗尽互联网上的所有高质量文本数据。Meta生成式AI副总裁Ahmad Al-Dahle也曾表示，为了开发出一个模型，他的团队几乎利用了网络上所有可找到的英文书籍、论文、诗歌和新闻文章。

作为一家聚焦AI前沿研究非营利研究机构，在本届大会上，智源除了公布了“大模型全家桶”、技术基座FlagOpen 2.0的相关进展，在数据方面，智源联合京能数产发布了“北京人工智能数据运营平台”，启动千万级指令微调数据集开源项目InfinityInstruct ，开源全球最大的多行业中英双语数据集IndustryCorpus 1.0，覆盖了18类行业的预训练数据集。

高质量的指令数据是大模型性能的“养料”，InfinityInstruct基于现有开源数据集进行了精确的领域分析和高质量筛选，还采用了数据合成方法来构造缺乏的领域和任务数据，提升了大模型的指令执行能力，使得用户能够基于这一数据集和自己的应用数据，对基础模型进行微调，快速获得专业的高质量中英双语对话模型。

而大模型在行业应用中的最大挑战之一是缺乏海量、高质量的行业特定数据集，IndustryCorpus 1.0则是目前全球最大的多行业中英双语数据集，数据集包含3.4TB的开源行业预训练数据，其中中文数据1TB，英文数据2.4TB，以及0.9TB的非开源定向申请数据。覆盖了18个行业类别，包括科技、法律、医学、金融、新闻等，未来计划扩展至30个行业。通过使用医疗行业数据集进行示范模型训练，智源展示了该数据集在提升模型行业能力方面的有效性，其中医疗模型的总体医疗能力提升了20.1%，主观评测的胜率达到了82.2%。

事实上，推动数据资源的开源开放一直是智源坚持的方向，早在2021年，智源就推出了全球最大语料库WuDaoCorpora，开放200GB高质量低风险中文语料，支撑全球大模型相关研究。此后陆续开源了可商用的指令数据集COIG、中英文文本对语义向量模型训练数据集MTP，以及高质量中文互联网语料库CCI 1.0等多个项目。

通过不断扩大和优化高质量的开源数据集，智源推动了人工智能技术的创新和发展，从这次大会围绕开源数据众多动作来看，智源是铁了心要把开源数据这件事“死磕”到底。

针对大模型研究及商业应用所面临的相关数据挑战：数据荒是否真实存在？中文数据面临哪些挑战？优质的数据在哪里？数据是否真的能交易流通？开源是不是解决的方法？如何处理数据的版权等问题？合成数据具备哪些潜力？硅星人也与智源研究院副院长兼总工程师林咏华进行了一次访谈，以下为对话实录，在不改变原意的前提下有所调整：

硅星人：智源在人工领域开源了许多研究成果，数据方面此前也发布了中文互联网语料库CCI 2，开源对大模型数据生态有多重要？

林咏华：Llama 2用了两万亿的tokens，Llama 3已经是15万亿。这么大的数据量，不可能单一企业通过自身的力量去爬取或收集所有的数据，所以开源数据集相当重要。

如果我们设想没有Common Crawl，可能整个大模型的发展都会延后。国内外的大模型，无一例外都会利用Common Crawl以及Common Crawl的变种，Common Crawl的出现使得我们有机会去训练大语言模型。

文图模型也是一样。如果没有跨模态文图开源数据集LAION-5B，把几十亿个图文对的数据进行开源出来。OpenCLIP、以及后来的多模态模型的发展都会延后很多。

更早可以回想如果没有李飞飞的ImageNet，也就没有计算机视觉2013、2014年那一波的发展高峰了，因为大家没有海量的数据去做验证。

硅星人：ImageNet背后是大量手工标注，做开源数据集是不是一件非常依靠人力的事情？

林咏华：历史长河上有一个不断的发展，ImageNet的确全靠人工，但计算机视觉过去十年的发展，实际上进入到了半自动标注的方式，可以训练一些特定的AI模型去辅助自动化标注。

有监督学习的数据集要开源，需要保证标注的准确性。通过AI加入的半自动标注，会逐步的使人的比例降低，但完全没有人是挺难的。

到大模型时代，尤其是预训练数据，因为是无监督学习，所以理论上不需要人工标注。为什么数据集还是离不开人的工作呢？因为我们需要对数据的质量进行把关。我们会训练一些质量分类模型，但还是需要通过人的抽检来保证质量。

硅星人：如何看待目前欠缺系统化、优质的中文语料的问题？这意味着什么？如何解决？

林咏华：首先我们要承认这是个客观现实，Common Crawl中文数据占比只有4.8%，它爬取的是全球互联网，所以这意味着全球用中文产出的互联网语料大概就这么多。LAION-5B里图文对的文字描述，中文大概是在4%到5%左右，也符合这个比例。除了互联网数据，文献、出版物、书籍等等高质量的数据，英文都具有天然优势，例如绝大部分的SCI期刊都是用英文发表的。

第二，中文数据最大的问题是数据孤岛。国外数据集，例如BookCorpus（由书籍内容组成的大型文本数据）、古腾堡工程（志愿者参与，致力于文本著作的电子化、归档以及发布），都积累了很多年，他们不是为大模型和积累的，国内很少有人做类似的事情。面对数据孤岛的情况，需要有一些方法让数据流动。

我们需要做的是尽可能把中文数据汇聚起来。除了互联网，书籍文献，还有很多行业的垂类的数据也存在这个问题。智源从2020年就开始启动中文数据的收集工作，但毕竟还是有限。

另外大模型其实是很“聪明”的，比如，当一个模型有70%的英文数据，30%中文数据，一起训练的时候，模型会形成跨语言的能力。这也就是为什么ChatGPT能够用中文很好的回答你的提问。

硅星人：所以语料是中文还是英文，对于提升模型能力并不是一个决定性的因素？

林咏华：尤其逻辑能力。但与传统文化、历史认知等是需要本土语言的，有一些知识只有在中文语境下才是正确的。这也是为什么此前有些文生图大模型不能精准画出麻婆豆腐，原因在于当时的中文语料图文对太少了，所以模型形成了英文思维，这也是非英语国家都需要面对的问题。

硅星人：如何看待爬取数据涉及的的版权等问题？

林咏华：根源在于AI企业的发展需要获取大量数据。过去这些年的版权立法，实际上并没有预估今天会让机器去学习这样一种新的方式。不是把这一本书二次传播，而是让神经网络去学一遍。

为了推动本国的人工智能的发展，日本出台了新的条例，放松了对数据版权限对制。但对于该如何定义使用权或版权，在全球几乎都是空白。企业又等不了，所以就会出现灰色地带，甚至是用钱去买数据，去爬取数据，里面有太多不同的因素和角度。

从我们的角度来看，的确需要尽快解决大模型时代出现的新型数据使用的方式的问题。智源也一直在跟不同的机构、部门去探讨，政府部门对此也相当的关注。

硅星人：相较于数据清洗、标注等环节，获取更多的数据是不是更重要的？

林咏华：从最终模型的训练来说，两者是同等重要，既要有量也要有质量。为什么听到很多声音说我们需要更多的数据，因为获取数据太难了，很难靠单一的公司通过完全合理合法的方式去解决，所以大家都在呼吁。只要获取到了数据，无论是更多的人去标注，去清洗，或者堆更多的算力，都是可以解决的。

硅星人：智源在数据领域的主要目标和思路是什么？

林咏华：智源的数据工作有两个重要的目标。第一是支撑智源引领大模型创新所需要的数据。第二是我们作为大模型领域一个重要的机构，需要打造好技术基座，来支撑产业的发展。

我们实际上推行的是“一个平台”，“三种使用方式”。“一个平台”是指需要有一个平台来汇聚数据。三种使用方式包括、开源数据、共建共享数据以及高价值但不出域的数据。

第一，开源数据集。通常我们会开源没有版权争议或版权诉求的高质量的数据。如果没有开源数据集，大量的高校科研机构都没无从下手，这是一个社会责任。我们也很高兴目前有数十个厂商愿意一起来建设开源数据集。目前已经开源了四十多个高质量数据集，大概是有2.4T，开源我们会持续做下去。

第二，共享数据。我们的工作组里有三四十个单位和机构，可以认为是一种联盟性质，遵循贡献、共享的原则，目的是寻求互助互补。我们打造了一个积分体系，例如一个企业贡献了100G的数据。我们会对数据进行质量评定，这个数据的质量系数乘以数据量，可以换算为积分了。企业使用积分可以换取数据。

第三是对版权的要求很严格的数据。我们构建了“数算一体”的使用方式。数据的存储、计算加工以及模型的训练都在一个安全域内。模型企业可以在域内使用数据进行二次的加工，以及模型的训练，但最后带走的只是模型数据。这是在国家现行司法体系下，减少数据提供方对数据安全顾虑的一种方式。

硅星人：对智源来说，如何解决“量”和“质”问题？

林咏华：“量”的问题其实今天大家没有很好的方法解决。因为司法体系等客观环境对谁都是公平的，我们也会面临同样的挑战。对智源来说，既要解决自己使用数据的问题，也要帮助产业里的大模型企业，解决能不能用好数据的问题。有些问题我们现在从法律角度还没能够解决，那我们先用技术手段。

拥有高质量版权数据的企业愿意给智源用，但也担心数据泄露，所以我们做了九鼎智算平台，通过数算一体，实现数据使用的不出域。一些大模型企业已经开始在这样的机制下使用相关数据。

“质”的问题，从网上爬取、收集的数据更像是原材料。需要从原材料里打捞出真正高价值的部分，传统是需要很多人工，包括质量的过滤和安全的过滤，尤其是中文语料，需要保障没有伦理、道德等问题。与此同时，我们实际上是需要通过人工智能的方法，来打造不同数据处理阶段所需要的模型，并且不断的迭代，尽可能提高效率，也尽量减少所需要的人力。

硅星人：关于数据交易的问题，现在国家也在上各种数据交易所，但目前交易的语料数据还是较少，怎么看待数据的交易问题？

林咏华：智源也一直跟交易所探讨各种可行性。从数据价值的角度来看，一种是交易使用权，比如刚才说的数算一体，一次训练的使用权是可以被定价的。但要做到数算一体，需要有平台的支撑，要有配套模型训练所需要的环境。另一种是数据交易所上的挂牌交易，卖License，可以带走数据。随着大模型的蓬勃的兴起，已经有交易所开始上大模型训练所需要的数据，尤其是行业数据，但这毕竟还是一个新事物，大家都在探索。

这里还有一个挑战，传统交易所上的结构化数据，是能够很清晰的知道数据质量的。但是大模型的预训练数据，采购方很难去过滤每一条数据的质量，顶多就抽检。我们的确也看到一些数据的质量参差不齐，所以这也是大家都在观望的一个原因。

硅星人：如何看待到2026年高质量训练数据将耗尽的观点？合成数据是不是未来高质量数据的一个重要来源？

林咏华：这种观点说的其实是互联网数据。模型的参数越大，需要的数据就越多，未来十万亿参数模型，可能需要十倍于今天的数据，有可能出现这个问题。

但模型的参数量提升十倍，是不是必然需要十倍或更多的训练数据？今天我们训练一个千亿参数模型，可能需要数千亿到数万亿token的数据。但这个数据量已经很大了，很多公司并没有把数据的质量精细化。当我们能够把数据质量精细化的时候，是否可以减少对数据量的依赖，而模型能够学到同样的能力？这其实是一个很重要的话题。

合成数据是一个重要的方向，许多大模型企业都会使用合成数据或增广数据。增广数据是基于人类的现有数据，用技术自动产生不同变种的数据。尤其是在指令微调阶段，因为需要有很多特殊格式、特殊任务，很难靠人工大批量产生。

我们确实需要很多合成数据，在自动驾驶这样的场景已经大量使用仿真合成数据。不过知识性的数据是一个新的话题。去年牛津、剑桥大学等机构的研究发表论文称，AI用AI生成的数据进行训练，会导致模型存在不可逆转的缺陷，最终走向模型崩溃。

硅星人：把数据质量精细化类似小参数模型做数据精选这样的思路？

林咏华：小模型为了达到跟大模型可对标，通常会加大数据量。scaling law意味着当模型参数更小的时候，你可以用更多的数据，到达同样的loss。这是小参数模型通常会做的一件事情。但模型的参数量小，能够学习到的逻辑能力其实是有限的，小模型应该有小模型的用法，试图要小模型跟大模型去PK一些复杂逻辑，没有必要。

硅星人：智源近期在数据领域的规划是怎样的？

林咏华：去年我们开源了大量文本类的数据，现在多模态和文生视频是一个很重要的趋势，我们也能够预见多模态会走入3D的时代，所以我们也会开始新的布局。

另外很重要的是垂类数据。国内有能力不断迭代通用基座大模型的企业还是少数，更大量的需求是怎么把大模型落地到行业。把通用大模型落地到行业进行持续微调训练，需要有行业的垂类数据，现在是比较缺乏的。智源希望能够比较快的时间让大家有重要的垂类的数据可以用，帮助大模型走进千行百业。

一方面我们会加大跟企业的合作，另一方面我们也在海量的通用数据里挖掘垂类的数据。希望能够和行业一起来构建新的业态，让数据流动起来，以一个合理的方式供给到国内大模型的研发和创新。