【作者 】许春明(同济大学上海国际知识产权学院教授,管理学博士);段明赫(同济大学上海国际知识产权学院)
【来源】北大法宝法学期刊库《电子知识产权》2025年第8期(文末附本期期刊目录)。因篇幅较长,已略去原文注释。
内容提要:随着人工智能技术的发展,数据在训练过程中的重要性和数据利用情况的复杂性不断增加,数据训练正面临著作权困境。将数据训练纳入合理使用的法定情形存在违反“三步检验法”的风险。在数据训练情形,合理使用的司法实践规则也难以适用。法定许可不能充分降低数据训练领域的交易成本。针对上述困境,可以引入延伸性集体管理制度作为解决方案。延伸性集体管理通过“选择—退出”机制,大幅降低交易成本,在处理海量训练数据和存疑数据许可时具有显著优势。同时,该制度相较于合理使用和法定许可,更好地实现了人工智能企业和著作权人之间的利益平衡。最后,应当建立具有广泛代表性的数据集体管理组织,并完善其监督与管理机制,以确保延伸性集体管理的实施能够在促进人工智能行业发展的同时,保障著作权人的合法权益。
关键词:人工智能;延伸性集体管理;合理使用;法定许可
目次 一、数据训练涉及的作品使用行为 二、数据训练面临超额交易成本与著作权人方利益失衡的双重困境 三、数据训练的合理使用“不合理” 四、法定许可适用局限性:交易成本和行业垄断视角 五、训练数据延伸性集体管理的合理性分析 六、构建具有广泛代表性的AI训练数据集体管理组织 七、总结
一
数据训练涉及的作品使用行为
人工智能经历了“机械学习”,到狭义机器学习再到深度学习的发展过程。人的劳动在其中占比越来越少,数据训练的重要性以及数据利用的复杂程度在不断增加。明确数据训练的法律性质,确认数据训练的合规风险对于人工智能发展已是迫在眉睫。
为了便于进行作品使用行为分析,本文将抽象的数据训练过程拆解为以下几部分(详见图1),在具体的行为层面分析数据训练可能造成的著作权侵权风险。
图1 数据训练过程
(一)数据挖掘阶段存在对作品的复制
数据挖掘包含爬取、预处理与存储。其著作权法核心争议在于复制和演绎行为的认定。
数据爬取不涉及对作品的使用。数据爬取将来自互联网的公开数据按照需求转移到人工智能的临时数据库之中,并迅速经历数据的预处理,不存在长期存储。数据爬取对数据的复制属于临时复制,客观上“复制件”没有被持久固定,不符合传统著作权法对复制行为的定义,不会侵犯著作权人的著作权。
预处理是技术性转换,所做的主要工作是对数据的向量化以及剔除。在这类技术性处理特征过程中,作品与机器可读的向量的数值具有固定的、单一的对应关系。算法以及编辑者并没有进行任何的创造性劳动,因此不会涉及改编权等著作演绎权利侵权。
数据存储将预处理过后的数据存储到计算机的存储库。该部分数据以机器可读的形式保留了原作品的基本表达,是受到著作权法保护的作品。存储将数据从临时的缓存库中转移到存储库中,涉及作品在不同的载体之间的转移。而且被转移的数据需要在存储库中较长时间的停留,以满足后续的模型构建中迭代的需求,事实上已被稳定地、持久地固定在新的载体中,满足《著作权法》对复制行为的定义。
(二)特征提取不涉及对作品的使用
特征提取,是由人工手动或机器自动识别并标记训练数据中可以作为算法变量特征的过程。从著作权层面上的作品使用行为分析,特征提取对数据进行标记本身不涉及任何的更改,无法构成改编等演绎行为;同时对数据的标记发生在存储库中,也不涉及载体之间的转移,无法构成复制行为。因此,特征提取不涉及对作品的使用。
(三)模型构建以及模型评价可能构成作品改编行为
模型构建以及模型评价是一个交互的过程,本文一并进行分析。模型构建包括输出和修正。输出是由输入端经由隐藏层到达输出端的正向传播,获得输出结果。修正是由输出端到输入端的反向传播,调整模型参数。通过正向传播和反向传播的迭代,模型精度逐渐逼近真实决策。
输出是算法模型模仿人类决策的过程。以生成式人工智能为例:生成式人工智能模型提取训练数据中的作品特征,并基于上述特征尝试模仿作品产出相同的结果。输出过程是否侵权取决于输出结果是否属于“表达性使用”。在训练过程中,作品整体被镶嵌至算法模型中。部分人工智能生成内容调用作品的表达,并在此基础上进行排列组合。这类创作物的创作目的即模仿原作者的风格、特色。其在创作内容上因为保留了原作品的特征,与原作存在极高的相似性,并未脱离原作品的实质性内容;并且生成式人工智能的创作物与原作品存在潜在的竞争,损害原作者的利益,可能构成对原作品的改编。而另一部分人工智能生成内容调用作品的创作思想,不构成著作权法意义上的改编。
修正通过梯度下降等方法调整模型的参数。修正主要涉及对梯度的计算以及对参数的修改,并没有将作品作为调整的对象,不涉及对作品的使用。
模型评价包括利用验证集对参数进行调整以及对训练完成的模型精度进行检验,是特殊的输出过程,可能存在著作权法意义上的改编行为。
综合对于四个阶段的系统分析,在不考虑著作权例外规则的情况下,人工智能的训练过程涉及对作品的复制与改编。而后续对输出结果的使用有可能涉及更多的对作品的使用行为。
二
数据训练面临超额交易成本与著作权人方利益失衡的双重困境
未经著作权人许可利用受著作权保护的数据进行训练的行为构成著作权侵权。然而,数据训练因其特殊性质,如训练数据的庞大数量和高额的许可获取成本,以及数据训练侵权行为的隐蔽性和侵权发现的困难,面临独特的挑战。法律尚缺乏对数据训练的特别制度安排,导致现实中出现数据训练难题。
(一)数据使用方的超额许可成本问题
合法获得训练数据许可的巨大交易成本导致企业轻视合规冒险实施可能侵权行为。在目前的法律体系下,原则上企业在进行数据训练前需要征得著作权人的同意,向著作权人支付费用后才能够合法地利用作品进行数据训练。复杂的许可环节带来巨额的交易成本。训练数据数量太过庞大,人工智能企业不可能确定每条数据是否受著作权保护的作品,更不可能追溯到每条数据的源头征得著作权人的同意。交易成本的困境导致著作权制度在数据训练领域形同虚设,违法使用训练数据的案例频发。OpenAI正同时面临着来自出版行业、程序员、社会群体等多方面诉讼。据报道,OpenAI未经作者的许可,擅自使用他人的新闻报道、程序代码、文字绘画等作品,训练数据来源受到质疑。Facebook母公司Meta Platforms、谷歌母公司Alphabet、苹果、亚马逊和微软等科技巨头近年来也面临着大量此类诉讼。受著作权保护的训练数据被滥用已经成为严重的现实问题。
(二)著作权人方的利益失衡问题
数据训练行为的隐蔽性导致侵权发现难,著作权人利益受到侵蚀。从著作权人的角度出发,人工智能的发展严重威胁作品原创者的生存空间,原创者却不能从人工智能产业的繁荣中获得合理的补偿,发生严重的利益失衡。数据训练本身是个高度概括且抽象的过程,侵权行为具有隐蔽性。复制行为发生在人工智能企业自己的服务器中,并且以向量等形式存储,著作权人没有访问人工智能企业服务器的权限,无法获悉自己的作品是否被用于数据训练过程;人工智能模型针对用户进行结果输出,输出结果不一定被公开,著作权人无法确定输出结果是否保留自己作品的独创性特征。即便著作权人能够识别出人工智能输出结果具有自己作品的独创性特征,也面临着诉讼力量悬殊、举证难等问题。著作权人利益得不到保障,利益失衡严重。
(三)现有限制与例外机制
学者以及司法界给出“合理使用”以及“法定许可”两种著作权的限制与例外制度作为数据训练的解决方案。下文将从立法现状、法律原理、制度目的几个层面进行分析,论证合理使用与法定许可制度在数据训练领域的制度失灵及其原因,并尝试从集体管理角度提出化解人工智能训练数据困境的新方案。
三
数据训练的合理使用“不合理”
合理使用旨在平衡著作权人利益与社会公共利益。本文将从现行法律规定和司法实践规则两个层面,分析将人工智能数据训练纳入合理使用范围所面临的障碍。
(一)数据训练纳入合理使用的法定困境
我国合理使用的立法模式借鉴了《伯尔尼公约》中的三步检验法。数据训练的合理使用不能够完全满足“三步检验法”的要求,难以被纳入合理使用情形。
第一,数据训练涉及的复制与改编行为超出合理使用的范围。从合理使用的十二种法定情形中可以抽象出其两种制度目的:其一是为了保障公民基本权利,主要涉及合理使用的(三)(四)(五)(十一)(十二)款;上述条款对公民的知情权与受教育权等基本权利做出妥协,著作经济权利无法与基本权利相比,因此受到限制。基于该目的的合理使用,要求著作权利益相较于作品使用行为带来的社会福利极小。而数据训练不涉及公民的基本权利,亦无法衡量算法模型优化带来的人工智能发展利益与著作权人受损的利益孰重孰轻。其二是为了私人以及公共生活领域方便而不得已做出的妥协,主要涉及合理使用的(一)(二)(六)(七)(八)(九)(十)款。数据训练脱离私人与公共生活领域,不可能因其在合理使用中的缺位造成私人与公共生活不便。综上所述,将数据训练纳入合理使用范围,可能超出立法设定的制度目的边界。
第二,将数据训练纳入合理使用不满足“三步检验法”不与作品正常使用相冲突的要求。通常认为,只有对作品的使用不损害著作权人利益或使用能够总体上增加著作权人的利益时属于“不与作品正常使用相冲突”。世界贸易组织认为只要该项限制妨碍了著作权人的“显著”或“有形”的经济收益权,就与作品的正常使用相冲突。数据训练结果可能生成与受训作品存在市场竞争关系的输出物。这种使用方式对著作权人现有及潜在市场利益构成影响的风险,难以满足“不与作品正常利用相冲突”的要求。
第三,“三步检验法”的最后一步要求“不得不合理地损害著作权人的合法权益”。“合理”的使用应当在理性的范围内,符合公平、正义等价值观念。训练数据的合理使用制度建构不能实现公平正义。将数据训练行为纳入合理使用的例外,是著作权人和人工智能企业权利义务的“不公平”:著作权人需单方面容忍其作品被大规模商业使用,而利用方则免除了征求许可和付费的义务。
第四,我国对于合理使用的规定创设地要求“应当指明作者姓名或者名称、作品名称”。在数据训练场景中,面对海量且来源复杂的训练素材,要求企业准确指明每一份受版权保护数据的作者及作品名称,存在显著的实践困难。
综上所述,基于目前的著作权法规定,将商业性数据训练行为纳入合理使用法定情形存在多重法律障碍。
(二)数据训练纳入合理使用超出司法实践规则
在司法实践中,最高人民法院肯定了美国“四要素”在裁判合理使用中的辅助性作用,并常参考“转换性使用”原则来辅助判断合理使用。从这些规则视角审视数据训练,亦面临挑战。
1.基于“四要素”的分析
“四要素”法包含使用的目的和性质、作品的性质、使用的数量和实质性、对潜在市场或价值的影响。有观点认为“四要素”下数据训练适用合理使用的两个假设前提是:机器学习属非表达性使用,且不影响作品市场。然而,现实情况更为复杂。
首先,数据训练能够在作者的表达中攫取有价值的信息,从表达层面获取收益。“机器学习”应该区别于往日的“机器”学习,作为训练数据的作品表达可能会在生成式人工智能的输出结果中复现。人工智能对作品的使用不再局限于不构成侵权的非表达层面。其次,人工智能的输出结果以全新的方式威胁到作品市场。人工智能创作物具有低成本、短周期、大数量的特点,与人类作者的作品之间存在强竞争关系,压缩作者生存空间,对原有作品市场产生实质性影响。
从“四要素”角度看,数据训练在作品使用的性质与目的,对潜在市场影响两个最关键要素上难以充分满足合理使用的要求。
2.数据训练难以构成转换性使用
转换性使用原则是对四要素中“(1)使用的目的与性质”的重述和具体化。数据训练因为目的与性质同合理使用制度初衷偏离而难以构成转换性使用。
数据训练中的复制行为难以构成转换性使用。在Authors Guild v. Google案中,谷歌图书搜索的复制行为被认定为转换性使用。纽约州法院认为,“图书馆计划”为读者和研究者提供了一种高效检索图书的方式,拓宽了作品获取途径,促进作品传播,整体上对作者和出版商有益。该案中,法院强调其复制目的严格限定于文献保存,且此种特定目的的实施最终对权利人具有积极意义。这种“有益性”特征在数据训练的复制中无法复现,因为人工智能在作品市场同原作者处于竞争对立地位,数据训练转换性目的弱。
其次,数据训练执行过程对作品的改编行为,也难以构成转换性使用。转换性使用可分为目的性转换性和内容性转换性使用。数据训练过程对作品的改编主要服务于模型内部功能优化,通常不服务于非欣赏目的获取、评论或检索等目的,目的转换性不足。而训练过程将作品有价值的表达特征加以提取,并重组再次进行表达,并未为作品添加新的具有审美意义的内容,也没有从另一个全新的角度对作品进行解读,其输出的创作物的价值仍然依赖于原作品的创造性表达,也难以达到内容性的转换要求。
值得注意的是,美国联邦最高法院在Andy Warhol Foundation v. Goldsmith案中收紧了转换性使用的认定标准,否定“任何为原作品添加美学内容或新的表达方式都能够构成转换性使用”的观点。在这样的背景下,即便人工智能发展到足以重组原作品的表达、进行内容上的创新,是否能构成转换性使用也高度存疑。
3.功利主义再审视
“四要素”和“转换性使用”承载功利主义思想,即通过有限限制版权以促进知识传播和整体社会福利最大化。表面上会侵犯著作权的行为,如果背后承载了更大的公共利益,可能会被纳入合理使用。
边沁认为:“功利主义赞成能够增大利益相关者幸福的行为,来促进这种幸福的倾向;非难减少利益相关者幸福的行为,来妨碍这种幸福的倾向。”将数据训练纳入合理使用范围会极大程度上损害著作权人的利益,降低作者的创作积极性,长远来看不利于文化行业繁荣,整体上来看是导致社会福利减少的,不符合功利主义内核。
四
法定许可适用局限性:交易成本和行业垄断视角
法定许可制度的设计为了解决存在于版权领域的两个问题。一是超额的交易成本;二是因为版权行业垄断导致的市场失灵。上述制度目的在数据训练领域无法实现。
(一)法定许可不能充分降低数据训练领域交易成本
交易成本理论视角下,法定许可降低了权利人与潜在使用者之间的磋商成本,但并没有减轻人工智能企业的付费义务要求。企业使用训练数据必须要找到作者,并向作者支付费用,仍存在很高的搜寻成本和实施成本。
这种模式之下,对于明确享有版权且作者信息明确的作品,企业向其支付作品使用费用难度不大,不存在过高的交易成本。但有相当数量的训练数据,不能够确定其是否属于受著作权保护的作品,或难以找到权利人信息,企业确定这种存疑的训练数据是否属于作品、搜寻作品权利人信息、支付许可费用的搜寻成本、实施成本极大。
这种情况下交易成本已经超过了单条数据价值。理性的企业会选择忽视法定许可的规定,不向著作权人支付费用,而是放任侵权行为的发生,诉讼发生时再予以补救。此时法定许可发生制度失灵,沦为一纸空谈。
(二)法定许可解决行业垄断作用无用武之地
法定许可制度第二个目的是解决版权行业的垄断问题。录音制品的法定许可的立法宗旨是为了防止音乐市场的垄断。二十世纪初期,音乐作品的著作权往往由音乐出版商通过和著作权人签订协议取得。而大型唱片公司与音乐出版商签订专有许可协议,垄断了利用音乐作品制作录音制品的权利。为了避免少数大型公司垄断音乐市场,美国国会在1908年《版权法修正案》率先对“制作录音制品法定许可”作出了规定。
从录音制品法定许可的制定渊源可以看出,该类法定许可是为了防止著作权利垄断版权市场。但是在人工智能领域,著作权人不仅不具有垄断地位,甚至不占有市场份额,处于显著弱势地位;反而,该领域享有市场支配地位,需要进行权利限制的正是要求使用作品的人工智能企业。法定许可解决行业垄断的目的在人工智能的训练领域不具有现实意义。
(三)从法定许可到延伸性集体管理
法定许可制度建立以来,因为缺乏程序上的保障饱受诟病。以我国的录音制品法定许可为例,首先是许可费收取难—著作权人和录音制品使用者之间存在高度的信息不对称性,许可使用费往往依赖于使用者自觉缴纳;其次是许可费定价难—法定许可制度省略了协商过程以减少协商交易成本,取而代之的是行政机关确立许可价格。这种方式剥夺了著作权人的议价权,同时缺乏合理性、代表性、及时性。因此,在缺乏足够的程序性保障机制的情况下,法定许可制度目的难以实现。即便是在建立法定许可制度较早的美国,产业上的实施也已完全依赖于集体管理组织,实际上构成了具有延伸性效果的集体管理,最终完成了集体许可模式对法定许可替代。
五
训练数据延伸性集体管理的合理性分析
相较于合理使用、法定许可,延伸性集体管理重点关注缩减交易成本,符合数据训练过程特点,能够更好地实现利益平衡。
(一)训练数据的延伸性集体管理
延伸性著作权集体管理最早为了解决集体管理组织获取作者授权的困境。通过限制“非代表会员”的权利,延伸性集体管理将集体管理组织的权利扩展到非会员作品,给予集体管理组织一项“法律推定权”,管理非会员的作品。
延伸性集体管理实际上是一种以“选择—退出(opt-out)”为基本构造的默示许可。集体管理组织对进行延伸性管理的作品进行公告即推定获得来自著作权人的默示许可,著作权人可以随时通过通知集体管理组织拒绝管理的方式退出集体管理。集体管理组织以公告作品的方式进行了要约,而作者不对管理进行拒绝实际上构成了默示承诺。延伸性集体许可重构作品许可过程,解决特殊情形下信息不对称,实现了效率与公平的统一。
延伸性著作权集体管理是针对特殊情况,交易成本过于巨大,乃至于普通的集体管理不能起到理想的效果,所做出的特殊制度安排。数据训练领域正符合延伸性集体管理的应用场景:海量的数据以及单条数据的低廉使用价格导致人工智能训练数据交易成本大于作品本身许可价格,交易不能顺利进行。此时考虑引入延伸性集体管理,并将适用范围严格限制在训练数据的许可之上,在最小化“选择—退出”对著作权人权利限制的同时解决训练数据领域的许可问题。
(二)延伸性集体管理的交易成本分析
训练数据特性致使其著作权保护构成复杂议题,具体表现在以下三个方面。
第一,训练数据来源的复杂性。训练数据包含处于公共领域的知识、受著作权保护的作品以及权属不确定的存疑数据。企业在获取训练数据时面临区分成本、来源寻找成本以及协商成本。即使找到著作权人并就作品的使用达成一致,企业仍面临支付费用的实施成本。训练数据来源的复杂性决定了单条训练数据获得许可的高额成本。
第二,训练数据的数量极其庞大。以生成式人工智能常用的训练语料数据库COMMON CRAWL为例,其在2023年累计爬取的网页已达到百亿的量级。单条训练数据的交易成本乘以如此巨大的数据量级,进行人工智能数据训练的交易成本达到天文数字。
第三,单条训练数据的价值极低。在交易成本巨大的领域,如果商品本身价值远高于交易成本,上述交易成本也应该被容忍。但是,模型训练建立在数以百亿的训练数据的统计基础之上。平均下来,单一的训练数据的价值可以忽略不计。在这种情况之下,交易成本远大于商品价格,交易无法进行。
以上巨大的交易成本导致传统的许可模式不能很好地应用于数据训练,而延伸性集体管理最直接的作用就是降低交易成本。延伸性集体许可从以下几个方面降低交易成本,解决训练数据管理困难的著作权问题。
1.一揽子许可,降低协商成本、人工智能企业方搜寻成本和实施成本
延伸性集体管理本质上仍属于集体管理,享有集体管理本身降低成本的制度优势。
首先,集体管理组织实施一揽子许可,省略了著作权人与被许可人的协商环节。集体管理在交易过程中充当著作权人与人工智能企业之间的桥梁,将“多对多”谈判转变为“一对多”,降低协商成本。其次,一揽子许可能够降低搜寻成本。集体管理组织将管理的训练数据制作为目录,并进行公示,省略了数据搜寻以及来源确认过程。最后,集体管理组织的自治性保证了组织的运行不依赖于其他主体。集体管理组织可以进行自主决策,作为独立的主体向著作权人支付费用,降低实施成本。
2.延伸至非会员,降低集体管理组织方搜寻成本,进一步降低协商成本
延伸性集体管理相较于普通集体管理的优势在于,特殊情况下其将管理范围延伸至非会员,进一步降低交易成本。
第一,延伸性集体管理在集体管理模式下进一步降低搜寻成本。延伸性集体管理模式采取“选择—退出”机制的默示许可,只有著作权人采取措施通知集体管理组织时,集体管理组织才取消对其作品的管理,简化许可程序。简化后的作品许可程序很好地契合了训练数据“来源模糊”的特性:集体管理组织无需再搜寻著作权人联系方式以征求著作权人同意,而是通过“公示数据及其来源”的方式将退出权移交到著作权人手中。
第二,延伸性集体管理避免协商成本。传统集体管理模式下,著作权人与集体管理组织的谈判环节是获得许可的必经程序之一,而在延伸性集体管理模式下,谈判过程被省略。取而代之的是集体管理组织的单方面“许可通知”与著作权人的单方面“选择退出”,协商成本接近为0。
3.借鉴孤儿作品许可方式,解决存疑训练数据
延伸性集体许可被用于解决孤儿作品许可问题。集体管理组织不需要做出努力寻找孤儿作品的作者,只需要将所使用的作品进行公示即可获得使用作品的许可。除非该作品的权利人通知集体管理组织拒绝其管理,集体管理组织代行许可权利。这种“选择—退出”模式避免了繁琐的作品来源确定环节,降低搜寻成本,促进作品传播。
上述处理孤儿作品的思路可以应用于解决存疑训练数据的许可成本问题:集体管理组织在收集训练数据保护的第一步时,就要确定其是否享有著作权。并据此将作为训练源的数据区分为:(1)明确享有版权的数据;(2)明确不享有版权的数据;(3)存疑的训练数据。
针对确定受到版权保护的作品。在延伸性集体管理模式之下,集体管理组织采取公告等方式对作者进行通知,即可将其作为训练数据源对人工智能企业许可。第一种作品的作者信息明确,集体管理组织可以较小的交易成本向作者分配费用;针对明确不享有版权的数据,它们存在于公共领域,集体管理组织可以将其作为训练数据。这类数据处于公共领域,不需要进行许可费用支付;针对存疑的数据,借鉴延伸性集体管理组织对孤儿作品的处理方法,利用“选择—退出”机制通过官网公示数据管理情况、暂不支付费用,待作者主动要求退出或分配费用时再行处置,有效规避因作者不明导致的搜寻成本,同时降低集体管理组织的实施成本与分配成本。
采取这类对孤儿作品的处理方法解决存疑训练数据交易成本难题主要存在两个优势:(1)作品的权利人本身对作品状态更为了解,容易确定是否受著作权保护。相较于集体管理组织耗时更短、成本更低、准确度更高。(2)集体管理组织通过“选择—退出”机制将巨大的权利人信息搜寻成本均匀地分配到每个作品权利人身上,避免交易成本积聚在单一主体。
4.规模优势:统一标签,降低边际成本
人工智能的模型质量依赖于高质量的训练数据。高质量的训练数据不仅需要具有强时效性,还需要良好的标签。在实践之中,很多人工智能企业将数据标签外包,但面临着隐私信息泄露、标签质量差问题。
集体管理组织统一标签保证数据的安全性,发挥规模优势。集体管理组织受到国务院主管部门的密切监管,隐私信息泄露概率低;此外集体管理组织通过集中培训加批量处理的方式,保证训练数据质量,降低标签边际成本。
(三)延伸性集体管理能够更好地实现利益平衡
知识产权法律制度的核心在于利益平衡,评判一项知识产权制度的好坏,利益平衡是核心。延伸性集体管理更好地实现了数据训练中的利益平衡。
一是延伸性集体管理相比于合理使用制度,能够更好地保护著作权人利益。合理使用模式是对著作权人的权利做出的极大限制,著作权人无法享受人工智能发展带来的高新科技就业红利,却要承受与人工智能竞争就业的风险。延伸性集体管理为著作权人保留了选择权,虽然增设了注意义务,但著作权人仍可以自主决定是否允许集体管理组织对其作品进行管理;其次,著作权人可以得到经济层面的补偿,相较于合理使用模式下的无偿使用,延伸性集体管理能够更好地实现利益平衡。
二是延伸性集体管理相比于法定许可制度,能够更好地促进人工智能行业发展。法定许可没有解决存疑训练数据交易成本问题。这部分训练数据数量不容小觑,高额的交易成本设置了极高的行业壁垒,加剧了行业垄断,限制竞争。即便大型公司面对如此交易成本,创新的动机也会下降,阻碍行业科技发展。延伸性集体管理于降低交易成本优于法定许可,其模式可破除法定许可交易成本障碍,助力人工智能行业迭代发展。
六
构建具有广泛代表性的AI训练数据集体管理组织
训练数据的集体管理需要做出全新的立法设计,既建立于现有著作权集体管理的基础之上,又是对现有的集体管理制度的批判性改造。广泛的代表性是集体管理制度能够良好运行的必要条件,也是延伸性集体管理制度成立的基础。欧盟对代表性的要求主要涵盖会员覆盖面、建立许可途径及权利人通知机制三个层面。本文将从集体管理组织代表性的角度,提出对训练数据的著作权延伸性集体管理模式的基本构建。
(一)提高集体管理组织公信力,降低入会门槛,吸引权利人加入
集体管理组织的法定垄断地位是成立广泛代表性的前提,多个集体管理组织同时存在分割市场,无法保证集体管理组织能够代表市场上所有潜在的权利人。然而,法定垄断地位也可能引发权利人对管理动机和效率的疑虑,阻碍其加入。如何在保证集体管理组织的法定垄断地位的同时,消除公众信任危机,确保数据集体管理组织的成员能够代表市场上所有潜在权利人的利益成为数据集体管理组织制度构建应当考虑的核心问题。
首先,应当建立数据集体管理全过程透明的制度。数据集体管理制度建立应当吸取著作权集体管理组织弱公信力的经验,就组织的成员、管理数据、具体权利、许可价格、协商过程等流程事项进行全面地公示,消除公众信任危机。其次,应当设立数据集体管理组织入会的零门槛。采取“先入会,后筛选”的模式,即著作权人选择加入集体管理组织时不对其资格进行评审,在出现分配费用纠纷时再进行审查,简化集体管理组织的入会评估过程。
(二)建立完善的数据集体管理组织会员代表制度,保证许可协议的代表性、合法性
延伸性集体管理因为具有广泛的代表性,被认为能够充分代表非会员的权利,因此具有合法性。具有高度代表性的会员代表保障非会员的权利,消除非会员对延伸性集体管理制度的顾虑。
首先,会员选任程序要做到公平、公正。会员代表选任需要兼顾程序公正和结果的代表性,投票过程设置合理的投票比重,结果上应能代表特定行业的主流利益。其次,会员代表同数据集体管理组织的协商过程应当保证其余会员以及非会员的参与权,允许非代表会员以及非会员通过提出意见、旁听等方式参与协商。最后,会员代表同集体管理组织讨论得到的许可协议成文应当具有合理性。许可协议内容不能对某个利益群体具有不合常理地偏好或者不合常理地损害某个群体的利益。
(三)成立数据集体管理信息平台
在延伸性集体管理“选择—退出”模式之下,集体管理组织受到通知义务的限制,集体管理组织必须以恰当的方式通知权利人被管理的作品以及被管理的权利。考虑训练数据的特点,成立数据集体管理信息平台是履行通知义务、进行管理信息公示的最佳途径。
理想的数据集体管理平台需要满足三个功能:(1)管理信息公示公告;(2)作品信息检索;(3)管理过程公开。反思现有五大著作权集体管理组织网站的不足,借鉴专利开放许可交易平台的经验,本文为数据集体管理信息平台的构建提出如下建议:
第一,建立全面的信息公示制度。延伸性集体管理对信息公示的全面性、准确性有极高要求。平台须全面公示作品及权利人信息(如可获得),对存疑数据需注明获取源,确保权利人便捷获知作品管理状态。
第二,建立完善的信息检索系统。借鉴专利平台经验,提供多种检索方式(如单一、组合、批量),并支持按权利人名称、领域、时间及关键特征如数据来源等进行精准筛选。
第三,建立透明的管理过程公示环节。数据集体管理组织信息公示平台应当注重代表选任、许可商议过程、管理费用明细三个方面管理过程透明公示。避免选举舞弊和内部贪腐情况的发生,同时增强非会员参与感,提高管理组织公信度。
值得注意的是,具有广泛代表性的数据集体管理组织能够为数据的延伸性集体管理提供会员与数据的数量基础,但进一步加深了集体管理组织的垄断地位,应当警惕数据集体管理组织的垄断行为。目前立法框架对五大著作权集体管理组织的垄断监督仅限于国务院著作权管理部门内部,监管力度远不能满足现实需求。新增的数据集体管理组织应当接受来自国家数据局、国务院反垄断执法机关、纪委监委三方面的监督。其中,国家数据局负责对数据集体管理组织的数据利用情况进行监督,聚焦于平台的信息公示、管理流程、许可协议是否符合法律规定;国务院反垄断执法机关规制数据集体管理组织滥用市场支配地位的竞争层面行为,重点关注数据集体管理组织可能出现的损害作品许可市场竞争的行为;纪委监委监察数据集体管理组织可能出现的腐败现象,以及可能存在收取过高管理费用、管理人员因严重不尽职导致管理不力等问题。
七
总结
人工智能技术被认为是第四次工业革命的开端,中国稳定的制度环境为人工智能提供了发展的土壤,能够保证中国企业在前沿科技领域的竞争优势。《生成式人工智能服务管理暂行办法》要求数据训练尊重他人知识产权,但合法的数据训练意味着巨大的交易成本,企业数据训练侵权频发;同时数据训练侵权具有隐蔽性,著作权人利益得不到充分保护,发生严重利益失衡。传统的合理使用以及法定许可在数据训练情景下并不能充分发挥作用:将数据训练纳入合理使用存在违反“三步检验法”风险;法定许可降低交易成本以及解决行业垄断的目的在数据训练领域不能充分实现。因此,本文针对数据训练领域的特性,提出引入延伸性集体管理作为解决方案。延伸性集体管理采取“选择—退出”的机制,能够充分降低交易成本;同时相较于合理使用以及法定许可,能够更好地实现人工智能企业与著作权人之间的利益平衡,解决数据训练领域面临的两大困境。
-向上滑动,查看完整目录-
《电子知识产权》2025年第8期目录
【学术研究】
1.生成式人工智能侵权归责原则的比选与使用
吴太轩、邓朝辉
2.职务发明创造专利共有权利行使问题研究
刘强
3.群体隐私下基因信息保护的制度虚化和因应研究
陈佳举
【热点聚焦】
4.数智时代版权过滤义务:内在机理、现实问题及其纾解路径
邓社民、管涛
5.人工智能训练数据的著作权延伸性集体管理合理性分析
许春明、段明赫
6.标准必要专利诉讼中禁诉令制度的适用规则研究
吕昭诗
【法苑】
7.网络平台知识产权侵权的规制研究
——基于《民法典》“避风港”原则的适用分析
陈辉、王昊
【域外法制】
8.英国人工智能法律监管框架、困境及启示
廖诗评、陈九州
《电子知识产权》(月刊)创刊于1991年,由工业和信息化部主管,国家工业信息安全发展研究中心主办,工业和信息化部电子知识产权中心承办。本刊集理论性和实践性为一体,探讨解决理论界和实务界中最新的知识产权问题,交流国内外最新知识产权理论研究成果及司法实践经验,是国内外工业行业领域唯一的知识产权学术期刊。
点击进入下方小程序
获取专属解决方案~
责任编辑 | 王睿
审核人员 | 张文硕 韩爽
本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。
热门跟贴