开栏的话
法院学术研讨是强化审判研究、促进审判发展的重要举措;是更高层次、更有质量、更显水平的审判活动。即日起,福建高院新媒体开设《研法问道》专栏,邀请法院干警提笔凝思——或从疑难案件中抽丝剥茧,解构法律适用的精微要义;或在类案审理间寻踪觅径,勾勒司法裁判的精益求精;更在情与法的碰撞中,剖白职业信仰的坚守与超越。欢迎关注!
本期分享全国法院第三十七届学术讨论会优秀奖论文《AI“数据训练”背景下著作权合理使用认定之规则重塑》。
吴广强
福建省高级人民法院民事审判第三庭三级高级法官
AI“数据训练”离不开受版权保护的海量作品,版权保护与数据合理使用激烈对抗,当前“封闭例举式”合理使用规则及标准模糊的“三步检验法”难以对“数据训练”作出法律定性。通过重塑失衡的“权利保护与合理使用”结构,扩张合理使用权能,探索以“三步检验法”“四要素法”融合重塑AI“数据训练”合理使用规则,以期对司法实践有所裨益。
现行合理使用认定规则的适用困境
版权法维持“版权保护与合理使用”动态调整,现行“版权保护与合理使用”结构难以适应新技术发展。
(一)“版权保护与合理使用”结构失衡。传统版权法秉持“作者中心主义”,奉行“利益延伸原则”,复制权过度扩张,“版权保护与合理使用”处于“主从”关系。司法实践普遍适用“侵权行为要件+三步检验排除”,“侵权行为认定”置于主导地位,“三步检验法”标准模糊难以厘定“版权保护与合理使用”利益平衡点。AI技术迅猛发展,创新主体将分化为人类与类人智能“二维创新”主体,从一元“人类独立创新”到二元“人类独立创新+人机协同创新”再到三元“人类独立创新+人机协同创新+人工智能创新”演变,“作者中心主义”逐渐式微,作者权利将受更多限制,现行合理使用认定规则难以调和“人退机进”矛盾。
(二)“合理使用与版权保护”激烈对抗。较以往作品使用情形,“数据训练”涉及大量作品复制、数据标注、标准化处理、特征提取等,存在侵害作品复制权、改编权等风险。大量未经授权使用作品行为,可能破坏现有的、新兴的、待开发的作品许可市场。若模型输出物与训练作品构成实质相似,会直接替代原作品市场;若输出物与原作品风格相似,亦可能稀释作品市场,影响人类作者创作激励。“数据训练”纠纷普遍诉求“禁令救济”,本质是技术创新背景下版权人与创新主体利益失衡引发的集体对抗,权利保护思维下法院极可能判决删除训练数据。若要将原始训练数据与训练模型剥离,除非整体禁止模型;若训练作品均需权利人许可,版权许可成本巨大,将导致技术创新“寒蝉效应”,现实矛盾使得“合理使用与版权保护”强烈对抗。
(三)“具体法律规则”滞后新技术发展。著作权法“封闭式例举”著作权例外制度,司法实践混乱适用“侵权行为要件+三步检验法排除”“转换性使用”“四要素法”“非表达性使用”等规则。例举的十二项情形仅第六项“为科研目的的使用”与“数据训练”较相关,但“数据训练”主体及海量使用作品均难满足“供科研人员使用”“少量复制已发表作品”。著作权法第二十四条虽移植《伯尔尼公约》规定的“三步检验法”,但文本表述抽离合理使用制度蕴含的伦理基础、价值理性,未提供具体操作规则,规定的“正常使用”“合法权益”等概念内涵及外延模糊,在“数据训练”领域存在“利益延伸原则”与“利益适度原则”的适用分歧。
重塑合理使用认定规则的正当思辨
AI技术发展依赖内生于版权法的合理使用原则,现行版权法失衡的“版权保护与合理使用”结构应予变革,加之域外经验及合理使用制度自身优势,使重塑合理使用认定规则具备正当性与必要性。
(一)重塑合理使用规则契合实际。人工智能作品创作中“人”的要素呈下降趋势,版权制度应平衡激励创新与公共利益保障。人工智能大幅提升创作力,作品稀缺性大幅稀释,智力创造对价的版权保护亦应相应减弱,将AI“数据训练”纳入重塑的合理使用规则评价范畴,是对新技术发展的理性回应。下一步出台的著作权司法解释可就重塑规则作出规定:“根据著作权法第二十四条第一款第十三项规定,为技术开发、技术创新在必要范围内使用受版权保护的作品进行信息分析、信息处理的,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。”
(二)域外实践倾向合理使用路径。域外实践普遍选择适用合理使用路径规制“数据训练”行为。美国版权法规定的全开放式“四要素法”,为人工智能所需的变革性、新型使用作品行为供给强大制度空间。《欧盟数字单一市场版权指令》规定“文本与数据挖掘例外(TDM)”,即以数字形式分析文本和数据,包括但不限于模式、趋势、相关性自动分析技术,利用作品方式限于复制、提取。《日本著作权法修正案》引入“柔性合理使用条款”,为技术开发、科学研究目的对作品进行信息分析,而非享受作品思想、情感,是非表达性使用,不会损害著作权人利益,得以涵盖“数据训练”行为,为新技术发展预留充分空间。
(三)合理使用路径比较优势彰显。“先授权后使用”“法定许可”若适用于“数据训练”,将导致程序繁琐、费用高昂,甚至形成“数据孤岛”,相较而言,合理使用制度具备灵活制度优势、丰富司法经验,是更适宜的治理路径。“先授权后使用”将导致数据数量断崖式下降,从授权到使用的时间差将使数据滞后、丧失时效性,缺乏“数据投喂”及投喂“过时数据”的模型将产生“模型偏见”。合理使用与法定许可均赋予未获授权情况下作品使用权,但法定许可范围严格受限于著作权法规定的六种情形,若适用法定许可,需将“数据训练”增设为新的法定许可情形,而现行合理使用制度仅需进行相应改造即可适用。
“数据训练”合理使用认定之规则重塑
著作权法司法解释若对新技术背景下合理使用规则作出条文安排,则可探索以“四要素法+三步检验法”融合重塑AI“数据训练”合理使用规则。“三步检验法”第一步“特定情形”为“为技术开发、技术创新在必要范围内使用受版权保护的作品进行信息分析、信息处理的”,将“四要素法”融合至第二、三步分析,将“转换性使用”作为第一要素“作品使用行为的性质和目的”分析重点,综合考虑对“数据训练”是否构成合理使用作出认定。
(一)作品使用行为的性质和目的。若“数据训练”目标并非取代原作品,且增添新内容,具备不同性质、目的,通过新信息、表达改变原作品,替代原作品市场可能性较低,“转换性”程度越高,越可能构成合理使用。不以输出表达为目的的自动驾驶、智能家居、人脸识别等“决策型模型”,“数据训练”目的是提取数据中客观事实信息而非表达性要素,最具“转换性”;“数据训练”不会输出实质性相似内容的“非实质相似输出模型”具备适度“转换性”;模型训练目的系为生成与训练作品实质相似输出的“实质相似输出模型”,除非原作品系讽刺或评论的目标,则很难具有“转换性”;输出内容是根据用户提示增强响应的“增强检索功能模型”,目的是提供检索到的受版权保护的作品的缩略版或总结,不太可能具有“转换性”。此外,非法来源数据不利于被认定为合理使用,使用行为越具“转换性”,合理使用判断中商业性因素的重要性就越小。
(二)被使用作品的性质。第二要素仅是法院必须评估使用作品目的是否正当(要素一)、使用程度是否与目的一致(要素三)、可能对原作品市场或价值造成何种影响(要素四)的背景因素。“数据训练”通常包含多种类型作品,这些作品中包含功能性作品、表达性作品、已发表作品、未发表作品等,合理使用的具体结论会因作品类型不同而异。创造性很高的小说、绘画等,相较学术论文、计算机代码等更具功能性、事实性的作品,更具表达性,更不利于合理使用的认定。此外,使用未发表作品难以构成合理使用。
(三)被使用部分的数量和质量。考察“数据训练”整体使用的作品数量及实质性、与使用目的是否合理匹配、向公众提供的数量。使用作品数据集、涉及作品全部或实质、使用数量越多,训练输出的作品越有可能替代原作品,不利于合理使用认定。与“数据训练”所要达成的目的匹配程度越高,越有可能被认定为合理使用。为“数据训练”制作完整作品复制件,但不向公众传播作品原创表达的中间分析步骤,可能被认为合理。若对“数据训练”后可能输出来自训练作品的能力加以限制,如采取降低侵权输出可能的训练技术、指示模型不生成侵权内容的系统提示、阻止可能生成侵权内容的用户提示、阻止侵权内容显示的输出过滤器等,则第三因素的不利影响会减少。
(四)使用对作品潜在市场或价值的影响。“数据训练”对作品潜在市场或价值的影响主要分析销售利润损失、市场稀释、许可机会损失等。“实质性相似输出模型”输出内容因与原作构成实质性相似,对原作替代程度最深;“增强检索功能模型”输出内容可能包含受版权保护的原作品,替代可能性高;“非实质性相似输出模型”导致原作品市场替代可能性较低;“决策型模型”不输出生成式内容,不会导致原作市场替代。“数据训练”对潜在市场的影响,应结合具体案情,重点考察是否在同一市场提供竞争性产品并直接稀释原作品市场。随着数据产业快速发展,实际或潜在的许可市场收入损失也可能是市场损害考量要素。未来,当许可市场能够满足“数据训练”时,未经许可的使用可能在第四要素下不利于合理使用认定。
供稿:法培处、民三庭
作者:吴广强
编辑:罗泰敏
热门跟贴