肖飒等：生成式人工智能服务场景下的合理使用规则探析|人工智能|复制权|数据挖掘|版权法|肖飒|著作权法

一、问题的提出

“合理使用”（Fair use）作为著作权法中的一项重要制度，是各国著作权制度中对著作权进行限制的主要方式。所谓“合理使用”，是指在一定条件下不经著作权人的许可，也不必向其支付报酬而对作品所进行的使用。[1]此项制度被明确规定在我国《著作权法》第二十四条，该条涵盖了十三种（含一项兜底条款）构成合理使用的情况，在很长的一段时间里都发挥着举足轻重的作用。然而快速发展的科技促成的生成式人工智能却对这项制度提出了挑战。

自从ChatGPT横空出世以来，具有文本、图片、音频、视频等内容生成能力的模型及相关技术——生成式人工智能技术[2]变成了科创界的“宠儿”，由此而衍生的AIGC（Artificial Intelligence Generated Content，即人工智能生成物）亦成为民众们休闲娱乐的方式之一，各种AI生成图片、AI生成视频等内容在各大社交平台上蔓延。然而法律风险也“如影随形”，其中最常发的便是著作权侵权风险。

早在2023年年初便有三位艺术家起诉Stability AI、Midjourney以及DeviantArt，称其未经作者同意的情况下抓取图像进行训练，侵犯了数百万艺术家的权利，而在2023年6月，也有两位作家起诉Open AI，指控其同样存在未经授权利用图书训练ChatGPT，进而谋取商业利益的情况。

回到国内，2023年11月“AI生成图片著作权第一案”一审宣判，法院在肯定了案涉AI生成图片属于著作权法意义上的作品的基础上认定他人未经许可的使用行为构成侵权[3]，此后不久2024年2月宣判的AIGC平台侵权案件中，一审法院指出该平台生成的知名IP图片侵犯了该IP在中国的授权人的著作权（复制权及改编权）[4]。

可见，无论是在国内抑或是国外，生成式人工智能技术引发的著作权侵权风险都不容忽视。这种法律风险，很大程度上来自于生成式人工智能服务场景下模型训练所需要的大量数据。细言之，对于生成式人工智能技术而言，其以数据作为基础和“养料”，输入的数据量越多、数据类型越丰富，其最终作出的决策或者生成的产物的“正确性”和“可靠性”就越强[5]。而为了产出更为优秀的模型、提高自己的竞争力，生成式人工智能服务提供者[6]（下称“服务提供者”）不得不抓取大量的数据用于训练，这种大量抓取的行为就极其容易引发著作权侵权问题。因此，《生成式人工智能服务管理暂行办法》明确指出，对于训练数据处理活动应当使用具有合法来源的数据和基础模型，且涉及知识产权的，不得侵害他人依法享有的知识产权。此外，以典型的图片生成类型的生成式人工智能服务为例，在最后的作品生成阶段，其生成的作品还可能因为与已有作品构成“实质性相似”而涉嫌侵犯著作权，此前提到的AIGC平台侵权案便属于此种类型。

然而成熟的生成式人工智能技术的确离不开大量训练数据的支撑，如果一味认定无论是在数据输入（训练数据）阶段以及作品生成阶段均需要取得相关著作权人的授权否则便会涉嫌侵权，那么无疑会极其不利于生成式人工智能产业的发展。一个较为明确的解决方案在于通过适用《著作权法》规定的合理使用规则对该情况进行“化解”。问题在于，在现有制度下前述情况能否被囊括进“合理使用”的十三种情况之中？如不能，又应当如何妥当地平衡著作权人享有的合法权益以及产业的健康发展？本文将以生成式人工智能服务的场景为例，对此问题进行探讨。

二、合理使用的适用前提：侵权行为的发生

在著作权领域，某一行为是否构成对他人著作权的侵犯通常要考虑如下要件：是否实施了著作权人控制的行为；是否经过著作权人许可；是否构成合理作用。[7]由此可见，合理使用本身应当被认为是一种免责事由或者抗辩事由，抑或称之为侵权免责事由[8]，其适用以侵权行为发生为必要。

在生成式人工智能服务场景下，数据输入阶段主要涉及文本与数据挖掘行为，根据2019年欧洲通过的《单一数字市场版权指令》第二条第二款的规定，“文本与数据挖掘行为”被定义为“旨在分析数字形式的文本和数据，以产生包括但不限于模型、趋势和关联信息的自动分析技术。”这种行为本身是一种复杂的行为集合，其内可能包含多种对他人作品的使用行为，各行为可能分别涉及对他人著作权的侵犯，如对数据予以转码之行为可能侵犯他人的复制权、翻译权和改编权，对数据进行汇总之行为可能涉及侵犯他人的汇编权，但无论其他行为是否侵权，进行“文本与数据挖掘行为”所必须的转译或者存档之行为必然侵犯他人对作品享有的复制权，进而构成侵权行为。[9]

而在作品生成阶段，如果所生成的结果本身是定量分析或者汇总的结果，那么自然不涉及著作权侵权行为，而如果所生成的结果属于表达性输出，譬如图片、小说、音乐等等，那么该结果若满足“接触+实质性相似”的判断标准，那么，其生成行为或者说输出行为就构成侵权行为。

本文后续的所有讨论都基于前述“文本与数据挖掘行为”与输出行为（作品生成行为）构成著作权侵权行为。

三、合理使用规则的适用难点

在合理使用规则下的十三种情形中，除去最后的兜底条款，在生成式人工智能服务背景下可能适用的仅有第一项，即“为个人学习、研究或者欣赏，使用他人已经发表的作品”。但无论是数据输入阶段，抑或是作品生成阶段，适用此项规则进行正当化均有一定的障碍。

针对于个人使用这一合理使用的情形，其必须明确的是，该情形仅限于纯粹为个人目的而进行的使用[10]。因此，是否属于此种“个人”目的是判断行为是否属于“个人使用”型合理使用的关键。

那么此种个人目的应当如何理解呢？在日本的著名判例“三精运输机株式会社诉东宝舞台株式会社案”中，法院明确指出，“合理使用”只允许在家庭或有限范围内为个人使用而进行复制，在公司中为商业目的进行的复制不是个人使用。[11]由此，“个人使用”型合理使用明确排除了商业目的的使用，而仅允许在一个较小范围内的有限使用。对此，目前国内的司法实践也普遍予以承认，认为为个人学习、研究或者欣赏须是局限于一定范围内的、不面向社会公众的内部使用[12]。但即便如此，目前大多数国家仍承认公司中的科研人员进行内部研究而使用他人作品的行为如果仅具有间接的商业目的，那么亦仍有构成“个人使用”型合理使用的可能。[13]盖因此种情况下，其仍局限于一定范围内的内部使用，且由于其仅具有间接的商业目的，因而其成果也不会直接用于商业行为，进而不会损害著作权人的合法利益。

在数据输入阶段，由于数据仅仅用于模型的训练，其基本上不会对外输出，也不存在面对社会公众的情况，因此，即便其最终目的是将训练后的模型用于商业目的，但是其并非直接商业目的，而更类似于间接商业目的，此时似乎此种行为符合“个人使用”中对个人目的的限制，从而可能归属于“个人使用”型的合理使用。但是实际上，这种大规模的复制行为本身可能会对权利人的经济利益造成不合理的损害，进而属于“不合理地损害著作权人的合法权益”之情况，从而因违背“三步检验法”[14]而被排除出合理使用的适用范畴。

在作品生成阶段，由于生成式人工智能服务往往提供给不特定多数人，加之服务提供者所提供的服务往往系有偿的（如生成一张图片需要支付一定费用），或有条件的（如需付费成为会员方才能够使用服务），因此其商业使用之目的十分明显，显然不属于“个人目的”的使用情况。即便用户生成该作品之目的在于学习、研究或欣赏，但对于服务提供者而言，其行为也并不局限于一定范围且面向社会公众，因此，若其生成之作品以及相关行为构成对他人作品著作权的侵犯，那么很难以个人使用为由将其正当化。《北京市高级人民法院侵害著作权案件审理指南》第7.10条亦明确规定“被告未经许可通过信息网络向他人提供作品，其提出属于‘为个人学习、研究或者欣赏使用他人已发表作品’的合理使用抗辩，不予支持。”

综上所述，尽管个人使用之范畴能够囊括一定范围内的、不面向社会公众的内部使用行为，但是生成式人工智能服务场景下的数据输入以及作品生成阶段的各行为仍然难以因此免责。

四、合理使用的扩张性解释——域外经验的参考

那么，这是否意味着在中国法项下，前述场景便不能适用合理使用规则呢？笔者认为并非如此。

早在2011年最高人民法院发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》中，最高人民法院便指出“妥当运用著作权的限制和例外规定，正确判定被诉侵权行为的合法性，促进商业和技术创新，充分保障人民基本文化权益……在促进技术创新和商业发展确有必要的特殊情形下，考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素，如果该使用行为既不与作品的正常使用相冲突，也不至于不合理地损害作者的正当利益，可以认定为合理使用。”

因此，最高人民法院的此份文件实际上在一定程度上授予了下级法院在“确有必要的特殊情况下”对《著作权法》中的合理使用的限制的突破的权利。尽管该规定并非《著作权法》中的法律条文或者行政法规的范畴，但仍然有其积极意义。事实上，我国司法裁判中也存在突破《著作权法》规定适用合理使用规则的情况，但对此应当从严把握标准。如在谷歌数字图书馆案中[15]，二审法院北京市高级人民法院指出，“在《著作权法》第二十二条规定的具体情形外认定合理使用，应当从严掌握认定标准。除非使用人充分证明其使用行为构成合理使用，否则应当推定使用行为构成侵权。判断是否构成合理使用，一般应当考虑使用作品的目的和性质、受著作权保护的作品的性质、所使用部分的质量及其在整个作品中的比例和使用行为对作品现实和潜在市场及价值的影响等因素。上述考虑因素中涉及到的事实问题，应当由使用者承担举证责任。”

问题在于，生成式人工智能服务场景是否能够被认定为前述文件中提及的“确有必要的特殊情况”。

对此，我们可以对域外的立法现状进行考察，以确定是否能够以此作为突破口。

（1）欧盟的法律规定

如前所述，欧盟在2019年便通过了修订后的《单一数字市场版权指令》，在该指令中其明确将文本和数据挖掘行为界定为著作权的限制的范畴，其在第三条规定了“以科学研究为目的的文本和数据挖掘”，指出“科研机构和文化遗产机构为科学研究目的进行文本和数据挖掘，对其合法获取的作品或其他内容进行复制与提取的行为”属于著作权的例外，同时在第四条规定了对于一般的文本和数据挖掘行为进行了规定，其指出，只要权利人没有以适当方式明确保留对上述作品或其他内容的使用，那么，以文本和数据挖掘为目的，对合法获取的作品或其他内容进行复制与提取的行为就仍然属于著作权的例外。

换言之，在欧盟目前的法律环境下，只要作者没有对作品进行保留性声明，那么相关的文本和数据挖掘行为并不构成侵权行为。

（2）日本的法律规定

（3）美国的法律规定

相较于其他国家而言，美国对于合理使用的规定更为灵活，美国《版权法》第107条仅仅列举出了供法院在个案中考虑的四个因素，即（1）使用的目的和性质，包括是否出于商业目的或非营利的教育目的；（2）受到版权法保护的作品的性质；（3）被使用部分的数量和重要程度对于被使用的作品的整体的情况；（4）这种使用对于被使用作品的潜在市场或者作品的价值的影响。[17]同时，这四个要素的判断不能被看作是相互分离的，所有的要素都应当结合版权法的目的加以考量，并且进行综合权衡。在这种灵活的框架下，即便行为人使用该作品是出于商业目的，也并非否定合理使用成立的直接理由。如在谷歌数字图书馆案的美国法院判决中，法院明确指出“谷歌的商业特性和逐利动机不能作为否定合理使用的正当理由。”[18]因此，即便服务提供者提供生成式人工智能服务之目的在于商业目的，存在逐利动机，在综合整体因素的情况下，仍然可以构成合理使用。同时，可以清楚地了解到，我国的前述文件以及法院的例外情况的审查标准基本与美国《版权法》的规定相对应。

综合以上情况，目前的域外立法对于文本和数据挖掘行为的正当化基本采取了肯定的观点，但仍要求该行为中对于作品的使用不得“与作品的正常利用相冲突”或者“不合理地损害权利人合法权益”，这显然是对三步检验标准的重申。

因此，就目前的环境下，对于数据输入阶段的所涉及的“文本和数据挖掘行为”，尽管尚未有法律、行政法规的明确规定，但是基于域外的立法经验，以及个案中对于“作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素”的审查，应当认为仍然有将其纳入合理使用范畴的空间。质言之，只要在服务提供者利用作品时越忽视对原作品本身文学、艺术价值的再现或者其内在功能或目的的实现，越注重使原作品在被使用过程中产生新的价值、功能或性质，从而越发改变其原本的功能或目的，那么其使用就越具备转换性，就越有可能构成合理使用。[19]

相反，对于作品生成阶段，由于该阶段所生成的作品直接提供给用户，而且基本不会产生前述转换性，其使用极有可能不合理地损害著作权人的合法权益，因此，对于此阶段，服务提供者务必小心谨慎，采取一定的技术性措施防止生成内容侵犯他人著作权。

五、结语

正如最高法发布的意见中所言，促进技术创新和商业发展有其必要之处，在著作权的权利与限制的博弈之中必须充分考虑著作权人的合法权益与社会行业发展的经济利益，通过对现有法律体系的完善以及司法机关的裁判明确两者的平衡点，进而构建出包容、开放的著作权法体系，促进社会良性发展。

特别声明：

大成律师事务所严格遵守对客户的信息保护义务，本篇所涉客户项目内容均取自公开信息或取得客户同意。全文内容、观点仅供参考，不代表大成律师事务所任何立场，亦不应当被视为出具任何形式的法律意见或建议。如需转载或引用该文章的任何内容，请私信沟通授权事宜，并于转载时在文章开头处注明来源。未经授权，不得转载或使用该等文章中的任何内容。