文/中国证监会科技监管局局长姚前

本文首先以ChatGPT为例,探讨大模型训练数据的来源,进而分析大模型的进化与升级路径,探讨大模型和中小模型可能的交互方式,阐述大模型的数据生态和模型生态建设,之后讨论未来使用合成数据的发展趋势以及训练数据的合规风险,提出利用数据托管机制探索有效的大模型训练数据监管体系,并分析大模型工具链的标准化和安全管控风险,最后从五方面提出促进大模型生态建设与合规发展的政策建议。

ChatGPT是美国人工智能研究实验室OpenAI于2022年11月30日推出的一种人工智能技术驱动的应用工具。它能够通过学习人类的知识来进行交流,所以也被称为“聊天机器人”。ChatGPT甫一问世便在全球引起了巨大轰动,并在人工智能应用领域掀起了一阵新的浪潮,仅仅两个月内其注册用户就突破1亿。ChatGPT既好玩又实用,远超之前的自然语言处理应用,许多人认为这是一个划时代的产品,国际上主流商业公司、学术机构乃至政府部门都开始高度重视和全面拥抱大语言模型(Large Language Models,LLM,下文简称大模型)应用。ChatGPT的主要魅力在于,它利用从互联网获取的海量训练数据开展深度学习和强化学习,可以给用户带来全新的“人机对话”体验。ChatGPT、GPT-4以及Midjourney等以内容生成为导向的人工智能应用,引发了一轮又一轮的创新浪潮。有人甚至认为,大模型正在以日为单位迭代进化。金融业作为大数据和人工智能应用的重要领域,理应密切关注当前大模型训练相关技术的最新态势。

本文首先以ChatGPT为例,探讨大模型训练数据的来源,进而分析大模型的进化与升级路径,探讨大模型和中小模型可能的交互方式,阐述大模型的数据生态和模型生态建设,之后讨论未来使用合成数据的发展趋势以及训练数据的合规风险,提出利用数据托管机制探索有效的大模型训练数据监管体系,并分析大模型工具链的标准化和安全管控风险,最后从五方面提出促进大模型生态建设与合规发展的政策建议。

一、ChatGPT训练数据来源与处理流程

OpenAI虽没有直接公开ChatGPT的相关训练数据来源和细节,但可以从近些年业界公布过的其他大模型(如DeepMind发布的2800 亿参数大模型 Gopher)的训练数据推测出ChatGPT的训练数据来源。笔者整理了2018~2022年从GPT-1到Gopher的大模型的数据集(见表1)。

表 1 大模型训练数据来源统计(表中数字单位为GB)

注:(1)维基百科是一个免费的多语言协作在线百科全书。截至2022年4月,英文版维基百科中有超过640万篇文章,包含超40亿个词,大多为说明性文字,内容严谨,涵盖多个领域。(2)书籍数据集包括Project Gutenberg和Smashwords (Toronto BookCorpus /BookCorpus)等,主要用于训练模型的故事讲述能力和反应能力。(3)学术期刊数据集包括国外著名论文预印版网站ArXiv上的预印论文以及美国国家卫生研究院等已刊发的期刊论文,其严谨性和条理性较高。(4)Reddit,即WebText,它是从社交媒体平台Reddit所有链接网络中爬取的数据集,文本风格偏向随意化和非正式化。(5)Common Crawl是一个爬取了2008年以来网站信息的大型数据集,数据包含原始网页、元数据和文本提取,它的文本来自不同语言、不同领域。(6)其他数据集主要包括开源代码社区GitHub等的代码数据集、StackExchange等对话论坛的内容和视频字幕数据集。

总的来看,大模型的训练数据主要来自于维基百科(Wikipedia)、书籍(Books)、期刊(Journals)、Reddit社交新闻站点、Common Crawl和其他数据集。

数据的质量对于大模型的训练至关重要。在模型训练之前,通常依赖专业数据团队对数据集进行预处理。这些预处理操作通常包括:(1)去重,即去除重复的文本数据,一般以句子为单位;(2)文本正则化或标准化,如全角字符转半角字符,繁体中文转简体中文等;(3)文本清洗,即剔除超文本标记语言(html)或者表情符号(emoji)等非文本内容,并对标点符号进行过滤和统一;(4)分词,即将句子拆分成单个的词;(5)词的清洗,如去除停用词等;(6)词的正则化或标准化,如统一数字的写法等。经过以上预处理流程,通常可以得到质量相对较高的文本数据,防止数据中的噪声对模型的训练产生不良影响,有助于后续模型的高效训练。

除了上述常规操作之外,在一些特定的处理任务中,数据团队有可能还会根据不同目的对模型训练数据进行过滤。比如,若要构建一个金融领域的知识系统,那么最好把大模型训练数据中与金融领域相关的数据筛选出来,这样可以提升模型生成的文本与金融领域的匹配程度,使模型的输出看起来“更专业”。

二、大模型的升级与进化路径分析

从长期视角来看,大模型的进化衍生出众多分支。最近一段时间,大模型迭代不仅速度加快,而且参与者也越来越多,基本上涵盖了所有的大型科技公司,生态的多样性和复杂性已初步显现。

目前,大模型升级迭代过程中的底层算法框架并没有本质的变化,算力投入以及训练数据的丰富仍然是其快速进化的关键,只不过最新的GPT4呈现出一些新的特征。

一是算法方面更适配具体的下游任务。GPT3与GPT3.5都是1750亿参数的大模型。GPT4没有公布具体参数,据公开资料推测其参数基本保持千亿级别,但在强化学习和解决具体任务方面有显著提升,比较流行的术语是“对齐”(Alignment)。如果说GPT-3系列模型向大家证明了人工智能能够在一个模型里做多个任务,那么GPT-4则在很多任务上已经达到甚至超过人类水平,比如在律师等专业学术考试上,分数能够达到应试者前10%左右的水平。

二是具备更规范的训练数据治理能力且支持多模态。GPT-4拥有“堪比人脑”的多模态能力,跟目前很多论文阐述的多模态机理并无太多差别,但它能够把文本模型的少样本处理能力和思维链(chain of thought, COT)结合进来。GPT-4训练数据的治理与供给,离不开数据标注、数据管理与评估、数据自动化以及数据合成。

三是构建更强大的算力集群,以满足更多的训练数据集和更大的输入参数。例如,微软已经将超过一半的云资源投入到大模型训练与人工智能生成内容(AIGC)应用中。英伟达更是与台积电、荷兰阿斯麦、新思科技强强联手,打造全新的算力平台与更强大的GPU。

三、构建各类模型相互联通的生态

GPT类大模型功能强大,在未来会成为许多行业如互联网、金融、医疗等领域的重要基础设施之一。例如,在金融领域,经过相关专业数据的训练,大模型可以具备理解金融业务知识的能力,并能针对具体场景提出解决方案,支持金融机构开展营销自动化、客户关联关系挖掘、智能风险识别、智能客服、智能投研等。

但在具体应用落地的过程中,GPT类大模型还会面临一系列挑战。一是如何确保训练数据的数量与质量。一般而言,大模型的训练语料为来自于多个领域的通用语料,而专业语料的收集通常比较耗时费力,同时也存在隐私问题,由此导致大模型在具体的个别应用领域可能出现专业性不足的情况。二是如何降低大模型的运行和维护成本。大模型需要巨大的算力支持和严格的数据治理,普通的机构和应用部门往往难以支撑大模型的运行以及迭代升级工作。为此,需要建立一个各类模型健康交互和协同进化的生态,以保证大模型相关人工智能产业可以在各个应用领域成功落地。

从技术角度来分析,大模型的进化依靠人工反馈的强化学习(Reinforcement Learning from Human Feedback,简称RLHF),其采用的数据标注与过去那种用低成本劳动力完成的简单数据标注工作有所不同,需要非常专业的人士来写词条,针对相应的问题和指令,给出符合人类逻辑与表达的高质量的答案。但由于人工与机器的交互存在一定的隔阂,比较理想的模式是通过模型之间的交互来进行强化学习,即依靠模型反馈的强化学习(Reinforcement Learning from Model Feedback,简称RLMF)。基于各类模型的交互,可以将整个大模型的数据和模型生态统一为一个框架。

过去,在分散化的模型研发模式下,单一的人工智能应用场景下多个任务需要由多个模型共同支撑完成,每一个模型建设都要经历算法开发、数据处理、模型训练与调优过程。预训练大模型增强了人工智能的通用性、泛化性,基于大模型通过零样本或小样本精调,就可在多种任务上取得较好效果。大模型“预训练+精调”模式为人工智能研发带来了新的标准化范式,使人工智能模型可以在更统一、更简明的方式下实现规模化生产。围绕技术创新与应用落地,大模型的数据和产业生态可划分为基础设施(包括通用语料及算力平台)、基础大模型、大模型服务(包括合成数据、模型供给及应用插件)。在下游应用中,用户可以部署自己的小模型,通过大模型的各种服务来提升性能,同时也可反向给大模型提供相应的反馈服务,帮助大模型迭代进化(见图1)。

图1各类模型的数据与模型生态

基础大模型是大模型产业生态的核心引擎,其优势在于基础性和通用性,面向典型任务如自然语言处理、计算机视觉、跨模态任务等需求,进一步结合任务特性,优化模型算法,学习相关数据与知识,从而使大模型表现出更优异的效果,甚至可以零样本直接应用。

小模型具有体量小(通常在百亿参数级别)、易于训练及维护的特点,因此适合各垂直领域,适合各行业进行内部开发和使用。在通常情况下,小模型训练成本较低,但性能远不及大模型。通过大、小模型交互应用,可以让小模型获得大模型的部分能力或实现部分功能,从而在不增加运维成本的前提下,使小模型的性能得到较大提升,满足具体的应用需求。大、小模型交互的方式可以分为三类:数据交互、模型交互和应用交互(见图2)。

图2 大、小模型的数据交互

(一)数据交互

数据交互是指大、小模型不直接参与彼此的训练或推理过程,而是间接通过彼此产生的数据来进行交互。大模型的训练通常需要大规模的通用语料。通用语料指的是覆盖多个领域的语料,在某些特定领域的知识覆盖可能存在不足。大模型训练完成后,可以通过指令生成一些特定领域的合成语料,再通过本地化部署,连同该领域的专用语料或行业内的私有语料一起训练小模型。小模型训练语料的领域比较集中,因此可以系统掌握本领域的知识,从而使模型的输出更专业、更细致、更精准。大模型在这一过程中的作用是产生大规模的高质量合成语料,使小模型的训练可以更加充分,防止专用语料或私有语料因规模小而导致模型的过度拟合。反之,小模型生成的专业语料,也可以作为大模型训练语料的补充,增强大模型在不同领域的专业能力,使大模型可以不断迭代进化。

实现大、小模型的数据交互,除了要依靠数据源管理机构外,还需考虑建立数据托管和交易机构,使得大、小模型的训练数据可以有序管控和流动,并为各方合理分配相应的权益。

(二)模型交互

除了间接的数据交互之外,大、小模型还可在模型层面进行交互,通过参与彼此的训练过程,使得双方可以共同受益,提升大模型的迭代效率。一方面,大模型可以指导小模型的训练,常用的方式为蒸馏学习()。在蒸馏学习模式中,训练好的大模型可以作为教师模型,待训练的小模型作为学生模型,针对同一批训练数据,通过设计合理的损失函数,将大模型产生的软标签与训练数据本身的硬标签对小模型的训练进行联合指导。同样,小模型也可对大模型进行反向蒸馏,利用小模型做样本价值判断帮助大模型加速收敛——将训练好的小模型在下游数据集上进行进一步微调之后,得到样本价值判断模型。

(三)应用交互

大、小模型在应用层面进行交互的典型方式为插件模式,即将模型构建的应用封装为插件服务供其他模型调用。插件模式具有两大优点:一是便捷高效,模型无需重复训练;二是隔离性好,可以避免模型细节的泄露,从而更好地保护模型训练方和使用方的权益。

一方面,大模型基本上采用预训练方式,实时性不高。通过调用小模型应用插件,大模型应用不仅可以提高输出结果的实时性,也可以以扩展自身在特定领域的知识缺失。另一方面,小模型构建的应用也可以通过调用 ChatGPT类大模型提供的插件,直接获得大模型强大的生成能力和推理能力。这种应用交互方式可以让小模型免去通用知识的训练过程,以较低成本来专注于特定领域的内容生产,用户也可以感受到各类模型互联互通后产生的“化学”反应。

开放人工智能(Open AI)近期发布的新产品ChatGPT plugins可以通过应用插件连接 ChatGPT 与第三方应用。这些第三方应用,可以是由单个领域的小模型构建而成。通过这种方式,小模型可以在ChatGPT类的大模型中完成多种扩展功能,如检索实时资讯或知识库信息、代替用户对现实世界进行“智能调度”等。

四、合成数据将成为大模型训练数据的新来源

当前,大模型的训练严重依赖现有的互联网公开文本数据。如果下一代大模型的参数达到万亿级别以上的话,数据短缺的问题将成为训练瓶颈。对此,合成数据(Synthetic Data)将是一种有效的解决方案。

合成数据是计算机模拟技术或算法创建生成的自标注信息,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试、验证大模型。合成数据可分为三类:(1)表格数据和结构化数据;(2)图像、视频、语音等媒体数据;(3)文本数据。在大模型的训练开发上,合成数据相比原始数据,可以发挥同样甚至更好的作用,实现更廉价、更高效的大模型训练、测试和验证数据供给。ChatGPT类面向终端用户的应用只是大模型落地的开始,而产业互联网领域的应用空间更为广阔,合成数据可以解决ChatGPT类大模型的潜在数据瓶颈,推动科研和产业的进一步发展。

合成数据可以精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,所以实际应用过程中的效果强于传统的脱敏数据,便于在更大范围内分享和使用。合成数据创造的新样本具有原始数据的性质,甚至可以通过深度学习算法合成原始数据中没有的罕见样本。合成数据的产业价值主要体现在以下几个方面:(1)实现数据增强和数据模拟,解决数据匮乏、数据质量等问题;(2)有效解决数据隐私保护和数据安全问题,这对于金融、医疗等领域尤为重要;(3)确保数据多样性,纠正历史数据中的偏见,消除算法歧视;(4)应对罕见案例,创建现实中难以采集的数据场景,确保大模型输出结果的准确性。

全球IT研究与咨询机构Gartner预测,到2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据将由人工智能合成。《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的数据鸿沟问题。可以预见,合成数据作为数据要素市场的新增量,在具备产业价值的同时,也可以解决人工智能和数字经济的数据供给问题。

目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。以金融行业为例,金融机构可以在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验;在生物医药行业,可以通过合成数据集,在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;在自动驾驶领域,可以通过合成数据集模拟各种驾驶场景,在保障人员和设备安全的条件下提升自动驾驶能力。

五、大模型训练数据的合规风险

从目前的情况看,ChatGPT类大模型输出侧的结果数据在自然科学领域的应用相对可控,但在社会科学领域的应用尚存在诸多不确定性。尤其值得注意的是,大模型过度依赖训练数据,因此在数据输入层面可能会存在恶意操纵的风险,包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。例如,有研究者指出,如果向大模型GPT-2输入“北京市朝阳区”, GPT-2会自动补充包含这些信息的特定人员的全名、电话号码、电子邮件和实际地址等个人身份信息,因为这些信息已经包含在GPT-2的训练数据中。这无疑会对个人隐私保护产生不利影响。还有研究人员称,ChatGPT经常在答案中重复和放大性别歧视和种族偏见,这是因为它的训练文本是从互联网中截取出的,而这些文本往往包含种族主义和性别歧视的语言,基于这种文本的概率分布训练出的大模型会被同样的偏见所“感染”。此外,研究人员还发现,这类大模型在训练过程中还善于编造信息,包括杜撰历史日期和科学规律,而且很容易掩人耳目。以上这些风险都会对大模型最终的输出结果造成不良影响,有可能对社会经济造成巨大冲击,因此需要监管部门对大模型训练数据的来源进行必要的管控,保证大模型的输出结果符合公序良俗和法律法规要求,进而推动人工智能行业健康有序发展。

特别需要指出的是,大模型输入侧的训练数据来源如果不是互联网公开文本数据,通常需要数据主体的授权,否则会产生数据隐私保护和数据合规方面的问题。如前述所言,随着可用于训练的互联网公开数据被逐步“耗尽”,发展大模型产业急需增加合成数据的产能,而合成数据和互联网公开文本数据最大的区别是前者存在数据加工处理方。因此,对数据处理方的有效监管和对合成数据的有效治理以及数据权益分配就成为发展大模型产业的重中之重。

六、利用数据托管机制构建大模型训练数据监管体系

通常来说,数据活动相关方主要有六类——数据主体、数据处理者、数据使用者、监管机构、国家政府部门以及国际组织。数据主体产生原始数据;数据处理者采集和控制原始数据,并加工形成数据产品和服务;数据使用者从数据处理者获取数据产品和服务,用于商业目的;监管机构按职责对行业进行监管,比如反洗钱、反垄断等;国家层面对数据进行立法,并对数据跨境流动进行管控;国际组织推动全球范围内的数据标准和规范。这一生态存在的突出问题是,传统的数据处理者过于强势,它们会利用技术优势和场景优势垄断数据输入和输出,无法保证数据权益分配过程中的公平性,对于监管机构来说也是一个黑盒子。

为了扭转上述困局,可以在数据活动中引入数据托管机构,将数据的存储、使用、管理职责相分离,由专业的数据托管机构承担数据存储,监督数据处理者的数据使用和服务,并收取和分配数据权益。数据权益主要分两块:一块是分配给数据主体的原始数据权益;另一块是分配给数据处理者的增值数据权益。数据托管还可以支持监管机构、国家有权部门开展数据流动监管、执法取证、数字税征收等方面工作。

图3 数据托管与权益分配机制

资料来源:姚前,《数据托管促进数据安全与共享》,《中国金融》2023年第2期

为促进大模型训练数据的合规使用和高质量输出,需要加强对大模型训练数据的源头管控,特别是在国家层面对大模型训练数据进行规范,而数据托管机制恰好可以成为大模型训练数据监管的有力抓手。

可以考虑对大模型训练数据尤其是合成数据建立托管机制。监管机构则通过对训练数据托管方的约束,进一步规范大模型训练数据生产方和使用方的行为。数据托管方可按规定对大模型训练数据来源、数据处理方的处理结果以及数据使用方的数据流向和训练结果进行监测,确保大模型训练数据来源可靠,在数据标准、数据质量、数据安全、隐私保护等方面依法合规,以保障大模型输出结果的高质量并符合监管要求。

七、大模型工具链的标准化和安全管控

大模型的性能依赖于训练数据的质量,同时,模型在不同落地场景下所需的底层技术规格也不尽相同。因此,构建大模型持续发展、健康交互的良好产业生态,必须推进大模型训练数据与底层技术的标准化,加快模型的迭代与落地。

一方面,大模型自身的训练数据集以及定义的数据服务接口(API),将会成为行业的事实标准,而接入大模型的各种应用都必须遵循该标准。目前,模型“预训练+微调”已经成为行业统一的标准流程和范式。在此基础上,结合具体的应用场景和专业数据,可以进一步定制和优化各领域各行业的小模型。从某种程度上来说,大模型训练数据和数据服务接口标准,将会成为下一代国际标准的核心之一。

另一方面,处理大模型训练数据的底层技术所需的工具链也必须产品化和标准化。大模型在标准化技术服务的有力支撑下,可输出硬件适配、模型蒸馏和压缩、模型分布式训练和加速、向量数据库、图数据库、模型互联互通等技术方案,提供自然语言处理、计算机视觉、跨模态、知识图谱等各类能力,让更多的企业、开发者可以低门槛地将大模型应用于自身业务并构建行业垂直模型,从而促进人工智能在各领域广泛落地。

值得注意的是,大模型的开发和应用虽然会对产业和经济发展带来巨大红利,但如果不加以合理管控,也会给国家和产业安全带来风险。比如,插件可能被植入有害内容,成为不法分子欺诈和“投毒”的工具,危及社会和产业安全。

八、政策建议

数字经济高质量发展的关键是数据,抓住高质量数据这一“牛鼻子”,就能有效应对以数据为核心的科技创新和产业变革。当前AIGC(AI Generated Content,人工智能自动生成内容)和ChatGPT充分展现了高质量训练数据在产业价值创造中叠加倍增作用,大模型训练数据及其输出结果将会是未来社会和生产中的一种重要的数据资产,其有序流转并合规使用也是发展数字经济的应有之义。通过合理的机制理顺市场中各参与方的数据权益关系和分配格局,并加强训练数据的依法合规监管,是促进大模型人工智能产业健康发展的关键。为此,笔者拟提出以下政策建议。

一是构建大小模型共生发展、相互促进的良好生态。总体来看,目前国内外主流大模型在算法层面尚不存在代际差,但是在算力和数据方面的差距在逐渐拉大。建议在通用领域大力支持国内头部科技企业研发自主可控的国产大模型;同时以标准为牵引,鼓励各垂直领域在大模型基础上,利用开源工具构建规范可控的自主工具链,既探索“大而强”的大模型,又研发“小而美”的垂直行业模型,从而构建基础大模型和专业小模型交互共生、迭代进化的良好生态。

二是重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。在强化数据要素优质供给方面,应统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用。

三是构建大模型训练数据的监管体系。国家相关部门应对大模型训练数据的处理和使用标准进行统一规范,通过制定模型应用规范,统一接口标准,促进行业规范化标准化发展;建立数据托管机制,对数据托管方进行约束,要求数据托管方按照监管机构的规定对数据来源、处理结果以及使用去向等进行监测,从而使得模型的输入、输出结果符合监管要求。以大模型训练数据为抓手,标准制定和数据治理双管齐下;同时要完善法律法规,优化政策制度,强化伦理规范,构建相关契约,以多种途径与方式形成有效监督,严防恶意篡改模型和渗入有害数据等行为。

四是探索基于可信机构或基于可信技术的数据托管方式。数据托管机构可以由相关机构组建数据托管行业联盟,以共建共享的方式建设;亦可利用区块链技术,基于联盟链或有管理的公链,完善源端数据治理机制,实现数据的链上托管、确权、交易、流转与权益分配。

五是构建大模型训练数据要素市场。以训练数据托管为抓手,厘清训练数据采集处理、合成数据服务、大模型和小模型互联互通、训练数据应用API之间的产业链条。加快数据要素市场建设,为训练数据提供市场化定价,以利权益分配与激励。

责编丨丁开艳

校对丨兰银帆

初审丨徐兰英

终审丨张伟

Review of Past Articles -

01

02