AI“数据训练”背景下著作权合理使用认定之规则重塑|侵权|数据训练|版权法|著作权

开栏的话

法院学术研讨是强化审判研究、促进审判发展的重要举措；是更高层次、更有质量、更显水平的审判活动。即日起，福建高院新媒体开设《研法问道》专栏，邀请法院干警提笔凝思——或从疑难案件中抽丝剥茧，解构法律适用的精微要义；或在类案审理间寻踪觅径，勾勒司法裁判的精益求精；更在情与法的碰撞中，剖白职业信仰的坚守与超越。欢迎关注！

本期分享全国法院第三十七届学术讨论会优秀奖论文《AI“数据训练”背景下著作权合理使用认定之规则重塑》。

吴广强

福建省高级人民法院民事审判第三庭三级高级法官

AI“数据训练”离不开受版权保护的海量作品，版权保护与数据合理使用激烈对抗，当前“封闭例举式”合理使用规则及标准模糊的“三步检验法”难以对“数据训练”作出法律定性。通过重塑失衡的“权利保护与合理使用”结构，扩张合理使用权能，探索以“三步检验法”“四要素法”融合重塑AI“数据训练”合理使用规则，以期对司法实践有所裨益。

现行合理使用认定规则的适用困境

版权法维持“版权保护与合理使用”动态调整，现行“版权保护与合理使用”结构难以适应新技术发展。

（一）“版权保护与合理使用”结构失衡。传统版权法秉持“作者中心主义”，奉行“利益延伸原则”，复制权过度扩张，“版权保护与合理使用”处于“主从”关系。司法实践普遍适用“侵权行为要件+三步检验排除”，“侵权行为认定”置于主导地位，“三步检验法”标准模糊难以厘定“版权保护与合理使用”利益平衡点。AI技术迅猛发展，创新主体将分化为人类与类人智能“二维创新”主体，从一元“人类独立创新”到二元“人类独立创新+人机协同创新”再到三元“人类独立创新+人机协同创新+人工智能创新”演变，“作者中心主义”逐渐式微，作者权利将受更多限制，现行合理使用认定规则难以调和“人退机进”矛盾。

（二）“合理使用与版权保护”激烈对抗。较以往作品使用情形，“数据训练”涉及大量作品复制、数据标注、标准化处理、特征提取等，存在侵害作品复制权、改编权等风险。大量未经授权使用作品行为，可能破坏现有的、新兴的、待开发的作品许可市场。若模型输出物与训练作品构成实质相似，会直接替代原作品市场；若输出物与原作品风格相似，亦可能稀释作品市场，影响人类作者创作激励。“数据训练”纠纷普遍诉求“禁令救济”，本质是技术创新背景下版权人与创新主体利益失衡引发的集体对抗，权利保护思维下法院极可能判决删除训练数据。若要将原始训练数据与训练模型剥离，除非整体禁止模型；若训练作品均需权利人许可，版权许可成本巨大，将导致技术创新“寒蝉效应”，现实矛盾使得“合理使用与版权保护”强烈对抗。

（三）“具体法律规则”滞后新技术发展。著作权法“封闭式例举”著作权例外制度，司法实践混乱适用“侵权行为要件+三步检验法排除”“转换性使用”“四要素法”“非表达性使用”等规则。例举的十二项情形仅第六项“为科研目的的使用”与“数据训练”较相关，但“数据训练”主体及海量使用作品均难满足“供科研人员使用”“少量复制已发表作品”。著作权法第二十四条虽移植《伯尔尼公约》规定的“三步检验法”，但文本表述抽离合理使用制度蕴含的伦理基础、价值理性，未提供具体操作规则，规定的“正常使用”“合法权益”等概念内涵及外延模糊，在“数据训练”领域存在“利益延伸原则”与“利益适度原则”的适用分歧。

重塑合理使用认定规则的正当思辨

AI技术发展依赖内生于版权法的合理使用原则，现行版权法失衡的“版权保护与合理使用”结构应予变革，加之域外经验及合理使用制度自身优势，使重塑合理使用认定规则具备正当性与必要性。

（一）重塑合理使用规则契合实际。人工智能作品创作中“人”的要素呈下降趋势，版权制度应平衡激励创新与公共利益保障。人工智能大幅提升创作力，作品稀缺性大幅稀释，智力创造对价的版权保护亦应相应减弱，将AI“数据训练”纳入重塑的合理使用规则评价范畴，是对新技术发展的理性回应。下一步出台的著作权司法解释可就重塑规则作出规定：“根据著作权法第二十四条第一款第十三项规定，为技术开发、技术创新在必要范围内使用受版权保护的作品进行信息分析、信息处理的，考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素，如果该使用行为既不与作品的正常使用相冲突，也不至于不合理地损害作者的正当利益，可以认定为合理使用。”

（二）域外实践倾向合理使用路径。域外实践普遍选择适用合理使用路径规制“数据训练”行为。美国版权法规定的全开放式“四要素法”，为人工智能所需的变革性、新型使用作品行为供给强大制度空间。《欧盟数字单一市场版权指令》规定“文本与数据挖掘例外（TDM）”，即以数字形式分析文本和数据，包括但不限于模式、趋势、相关性自动分析技术，利用作品方式限于复制、提取。《日本著作权法修正案》引入“柔性合理使用条款”，为技术开发、科学研究目的对作品进行信息分析，而非享受作品思想、情感，是非表达性使用，不会损害著作权人利益，得以涵盖“数据训练”行为，为新技术发展预留充分空间。

（三）合理使用路径比较优势彰显。“先授权后使用”“法定许可”若适用于“数据训练”，将导致程序繁琐、费用高昂，甚至形成“数据孤岛”，相较而言，合理使用制度具备灵活制度优势、丰富司法经验，是更适宜的治理路径。“先授权后使用”将导致数据数量断崖式下降，从授权到使用的时间差将使数据滞后、丧失时效性，缺乏“数据投喂”及投喂“过时数据”的模型将产生“模型偏见”。合理使用与法定许可均赋予未获授权情况下作品使用权，但法定许可范围严格受限于著作权法规定的六种情形，若适用法定许可，需将“数据训练”增设为新的法定许可情形，而现行合理使用制度仅需进行相应改造即可适用。

“数据训练”合理使用认定之规则重塑

著作权法司法解释若对新技术背景下合理使用规则作出条文安排，则可探索以“四要素法+三步检验法”融合重塑AI“数据训练”合理使用规则。“三步检验法”第一步“特定情形”为“为技术开发、技术创新在必要范围内使用受版权保护的作品进行信息分析、信息处理的”，将“四要素法”融合至第二、三步分析，将“转换性使用”作为第一要素“作品使用行为的性质和目的”分析重点，综合考虑对“数据训练”是否构成合理使用作出认定。

（一）作品使用行为的性质和目的。若“数据训练”目标并非取代原作品，且增添新内容，具备不同性质、目的，通过新信息、表达改变原作品，替代原作品市场可能性较低，“转换性”程度越高，越可能构成合理使用。不以输出表达为目的的自动驾驶、智能家居、人脸识别等“决策型模型”，“数据训练”目的是提取数据中客观事实信息而非表达性要素，最具“转换性”；“数据训练”不会输出实质性相似内容的“非实质相似输出模型”具备适度“转换性”；模型训练目的系为生成与训练作品实质相似输出的“实质相似输出模型”，除非原作品系讽刺或评论的目标，则很难具有“转换性”；输出内容是根据用户提示增强响应的“增强检索功能模型”，目的是提供检索到的受版权保护的作品的缩略版或总结，不太可能具有“转换性”。此外，非法来源数据不利于被认定为合理使用，使用行为越具“转换性”，合理使用判断中商业性因素的重要性就越小。

（二）被使用作品的性质。第二要素仅是法院必须评估使用作品目的是否正当（要素一）、使用程度是否与目的一致（要素三）、可能对原作品市场或价值造成何种影响（要素四）的背景因素。“数据训练”通常包含多种类型作品，这些作品中包含功能性作品、表达性作品、已发表作品、未发表作品等，合理使用的具体结论会因作品类型不同而异。创造性很高的小说、绘画等，相较学术论文、计算机代码等更具功能性、事实性的作品，更具表达性，更不利于合理使用的认定。此外，使用未发表作品难以构成合理使用。

（三）被使用部分的数量和质量。考察“数据训练”整体使用的作品数量及实质性、与使用目的是否合理匹配、向公众提供的数量。使用作品数据集、涉及作品全部或实质、使用数量越多，训练输出的作品越有可能替代原作品，不利于合理使用认定。与“数据训练”所要达成的目的匹配程度越高，越有可能被认定为合理使用。为“数据训练”制作完整作品复制件，但不向公众传播作品原创表达的中间分析步骤，可能被认为合理。若对“数据训练”后可能输出来自训练作品的能力加以限制，如采取降低侵权输出可能的训练技术、指示模型不生成侵权内容的系统提示、阻止可能生成侵权内容的用户提示、阻止侵权内容显示的输出过滤器等，则第三因素的不利影响会减少。

（四）使用对作品潜在市场或价值的影响。“数据训练”对作品潜在市场或价值的影响主要分析销售利润损失、市场稀释、许可机会损失等。“实质性相似输出模型”输出内容因与原作构成实质性相似，对原作替代程度最深；“增强检索功能模型”输出内容可能包含受版权保护的原作品，替代可能性高；“非实质性相似输出模型”导致原作品市场替代可能性较低；“决策型模型”不输出生成式内容，不会导致原作市场替代。“数据训练”对潜在市场的影响，应结合具体案情，重点考察是否在同一市场提供竞争性产品并直接稀释原作品市场。随着数据产业快速发展，实际或潜在的许可市场收入损失也可能是市场损害考量要素。未来，当许可市场能够满足“数据训练”时，未经许可的使用可能在第四要素下不利于合理使用认定。

供稿：法培处、民三庭

作者：吴广强

编辑：罗泰敏