打开网易新闻 查看精彩图片

作者 简 介:张平,北京大学法学院教授。文章来源:《法律科学》2024年第3期,转自法律科学期刊公号。注释及参 考文献已略,引用请以原文为准。

摘要

人工智能内容生成机制涵盖研发阶段的数据获取和后续利用阶段的生成内容应用,前一阶段主要面临获取数据的著作权合法授权问题,后一阶段则主要面临生成内容的著作权属性判断、归属及侵权责任承担等问题。现有规范分析框架对两个阶段所面临的主要问题都存在规则局部不适配的情况,究其根源在于现有规范设计不能满足人工智能发展所带来的产业保障需求,对已经做出调整的发展人工智能的产业政策无法进行有效回应。由技术推动带来的人工智能内容生成机制的变革,直接冲击着现有著作权制度对作品表现形式和“思想—表达二分”的底层逻辑认知,同时,还面临事前授权的财产规则和海量资源学习模式需求不符的窘境、机器学习内容获取全阶段的著作权侵权风险以及由数据保护利益的多样性和复杂性导致的要求著作权合规等问题。面对这些问题,不能单一化打补丁式地进行规则设计,而应该综合性地解决体系性认知问题,在稳固“思想—表达二分法”的基础原则上,可尝试通过将署名和其他著作权进行分离的制度设计以贯彻诚实信用原则保障数据来源真实,通过合法购买与合同约定风险承担、打开人工智能预训练阶段数据获取的著作权合理使用闸口,并借助避风港规则实现责任豁免、集体管理组织集中授权、建立开放授权的数据资源等多元化方案解决现实世界与技术演变之间的“发展之问”,因地制宜地进行规范框架调整和规则解释突破,实现产业发展与技术升级规范措施保障之间的最佳平衡。

一、问题的提出

生成式人工智能的迅猛发展给著作权制度提出了许多新的议题,生成式人工智能的研发阶段涉及训练数据的著作权合法授权,其利用阶段涉及生成内容的作品著作权属性以及生成内容的著作权归属和侵权判断问题。学术界最先关注的是人工智能生成内容(AIGC)的作品性认定问题,产业界首先遭遇的是训练数据的合法性指控问题,而真正对著作权制度基本理论构成挑战的是人工智能内容生成机制对“思想—表达二分法”的冲击。人工智能可以快速学习人类任何在先作品,生成风格一致但表达完全不同的结果,“思想与表达”无法“二分”。对此,传统上“接触+相似”的侵权判断标准不再“灵验”。如果说“文生文”的人工智能内容生成机制还勉强可以适用现有著作权保护规则,那么在“文生图”“文生视频”“语音生图文”“语音生视频”以及未来可能出现的“文生3D”“语音生3D”等完全超越了传统“复制”“改编”“发行”概念的场景下,人工智能著作权保护体系就只剩下主张人工智能训练数据合法授权的问题,传统著作权制度无法对其进行规制。

实际上,生成式人工智能研发阶段的训练数据和利用阶段的内容生成的焦点问题,都集中在了现有制度无法对人工智能获取训练素材和生成内容的知识产权保护规则形成统一有效的解释。其原因在于,规则所形成的规范分析逻辑并未完全契合现阶段应当呈现的市场发展逻辑,规范所构建的保护框架并未完全契合当前人工智能发展的产业政策。本文在该认知背景下,将人工智能研发阶段的训练数据和利用阶段的内容产生的过程总结为人工智能内容生成机制,将对该机制中存在的问题如人工智能生成内容的作品属性认定难题、训练数据的著作权合法性认定难题进行类型化分析,并综合性地提出有关问题的解决思路和方法。这些思路和方法并不采用打补丁式的单一化设置方案,而是综合性地尝试解决体系性认知问题,稳固思想表达二分法的基础原则,尝试提出署名和其他著作权分离的制度设计,通过合法购买与合同约定风险承担、打开预训练阶段数据获取的著作权合理使用闸口,借助避风港等互联网治理规则实现责任豁免、集体管理组织集中授权、建立开放授权的数据资源等多元化方案解决内容生成机制中存在的诸多问题,以期化解传统法律制度对人工智能发展的障碍,实现认知和解决方法上的突破。

二、人工智能生成内容的作品属性认定及认知思路调整

自人工智能生成内容出现以来,最先受到关注的是生成内容作品属性的问题,即对生成内容能否给予著作权保护。对于人工智能生成内容的可著作权性问题,需要从以下两个方面展开讨论:第一,现行著作权制度以“人”的智力成果作为作品起点,认定人工智能生成内容的可著作权性是否存在制度障碍。第二,若承认人工智能生成内容的可著作权性,人工智能生成的内容哪些应当被纳入著作权的客体范围,进而,生成内容与既有作品之间发生侵权纠纷时,传统的著作权侵权认定标准能否沿用的问题。即在人工智能生成内容这一场景下,如何具体进行实质性相似判断和“思想表达二分法”的适用以及调整规则认知思路的问题。

(一)人工智能生成内容的作品属性

人工智能生成内容能否构成作品,现有研究多聚焦生成内容是否具有独创性这一条件进行讨论。目前学术界有不同观点:一种观点持主体判断说,认为机器不能创作,不是法律保护的主体;人工智能生成内容属于应用算法、规则和模板的结果,缺乏创作的独特性,因而不能将其认定为作品。作品的前提是由自然人作者创作,作品的主体必须是自然人,该前提与作品的可著作权性紧密相关,人工智能生成内容不能满足现行著作权法对于作品的要求,难以成为著作权客体。另一种观点持客体判断说,主张应当以生成内容本身的独创性来判断其是否构成作品;对独创性的判断,只考虑人工智能生成内容的表达本身即可,无需考虑创作过程中是否包含“思想”和“人格”。也有观点认为人工智能生成内容实际上是人生成的内容,是否构成作品,应当按照著作权法上的作品标准进行判断,人工智能生成内容不具有特殊性;创作者身份不应是作品受保护的构成条件,著作权法应该考量该人工智能的生成内容与他人的作品不构成实质性相似,且采用“一般社会公众”认可的评价标准,在此前提下,该生成内容即可以作为著作权法意义上的作品加以看待。上述观点的核心争议在于作品的创作主体是否必须为自然人。

随着现代商品经济发展,现代知识产权制度是知识商品化的产物,作者身份属性逐步淡化。诸如计算机软件、工程设计图、地图等虽不属于体现作者思想情感的作品,但也被纳入著作权法的客体范围,作品的商品化发展使得作者与作品之间的内在联系逐步分离,计算机软件受到著作权法的保护即为例证;市场主体更关心计算机软件的市场价值,著作权法将其纳入作品范围,权利属性更为明确,市场交易更为便捷,而创作的作者是谁、该计算机软件能否体现作者的个性表达等等与作者身份属性相关的问题,较难对市场主体的决定产生关键影响。同时,作品的商品化恰好契合了产业政策的要求。产业政策论以产业发展为宗旨,将知识产权设计为市场经济下的“私权”,目的在于有效激励市场主体参与竞争。人工智能生成内容的出现,意味着作品商品化发展进入了新的阶段,将人工智能生成内容纳入知识产权的设计框架,强化作品本身的市场价值,不仅符合知识产权制度的演进逻辑,而且对人工智能产业的长远发展具有重要意义。

应当注意到的是,“主体判断说”的主要依据是《著作权法》第3条中的“智力成果”,因此学者们提出作品必须是人类的智力活动、创作活动的产物。实际上,人工智能生成内容是人机混同的智力成果。人工智能软件模型由人类设计而成。人类设定原始参数和运算逻辑,安排人工智能软件模型进行语料训练;人工智能软件模型面对输入的海量数据进行机器学习,并经人类进行反复调试达到对输出的预期标准后,最终输出生成的结果。整个过程无不体现人类的参与和安排。因此,人工智能生成内容并没有脱离著作权法的人格主义基础。同时,著作权法保护的客体范围也在不断发生变化,如游戏画面和体育赛事画面能否构成作品,曾一度成为学界争议的问题;其中赛事画面具有随机性和不可复制性,难以固定,是否能成为作品,是学界争议的核心。近年来,从我国的司法实践立场以及域外法判例发展来看,智力成果的固定性并不要求每次展示的具体形态确定,仅仅要求该画面足以被感知。相比于游戏画面和体育赛事画面,人工智能生成内容受算法的支配程度更高,输出的内容仍然在人类设定的算法框架控制之中,只是随着科技水平的提高,媒介发生了变化,但本质上还是体现了人类个性化的安排和选择。因此,探讨人工智能生成内容的可著作权性不应采用比游戏画面更高的认定标准。此外,人类使用相机拍摄的照片能否构成作品也曾引发热烈争议。争议焦点之一在于,相比于美术作品,机器工具做了更大贡献,人类对作品的贡献度不及之前;但正如“AI文生图”著作权案的判决书所说,技术的发展过程,是把人的工作逐渐外包给机器的过程。摄影技术随着科技的发展,功能愈发强大,能够在人类按下摄影键的极短时间内,对照片进行调整、修改后输出成片,但只要该照片能够满足作品的独创性要求,体现人类的个性化表达安排,仍然构成著作权法意义上的作品。而人工智能生成内容是人类通过算法运作控制机器输出的内容,照片同样是人类通过对摄像机的操作输出的画面,二者本质上都是人类操作机器工具的结果;只是随着技术迭代和创新,机器工具发生了变化而已。虽然人工智能有强大的生成能力,但从创作素材、创作过程和创作完成阶段来看,人工智能仍居于辅助性的角色,人类在创作过程中依然发挥着主导和决定性的作用。因此,探讨人工智能生成内容的可著作权性并不在于比较人类和机器对于生成结果的贡献比例,而在于探讨人类贡献的部分能否达到著作权法要求的一般的独创性标准。基于此,采用“客体判断说”这一标准来认定人工智能生成内容的可著作权性,并不存在制度障碍。

依据“客体判断说”,独创性判断只需对作品的表达本身做客观评价。独创性包含“独立完成和创造性”两个基本要素。整体而言,人工智能生成的内容与既有表达不同,即具有独创性。具体来说,“独立完成”意味着该作品由创作者独立完成,而非抄袭的结果,既包括从无到有独立地创造出来,也包括在现有作品的基础上进行再创作。在算法规则的运作下,人工智能根据使用者输入的提示词,综合运用文本表达、图文转化等模型自主生成具体的内容,生成内容符合“独”的要求。而关于“创造性”,从立法目的来看,著作权法并不要求作品达到专利法的“创造性”高度,著作权法旨在鼓励大众追求文化发展的多样性。从司法实践来看,法院认定“独创性”的法律标准并不高,诸如聊天表情、十几秒短视频、电子红包等都能达到“独创性”的门槛,均已受到著作权法的保护。人工智能生成内容是人类经过反复的模型调试、输入海量数据进行深度学习并不断优化的结果。不同的大语言模型即使收到相同的语言指令,输出的内容也各有不同,无不体现软件开发者的个性化选择和安排。人工智能生成的内容并不只是程式化的机械输出,人工智能能够根据指令的情景要求,不断优化、修改输出的内容,呈现不同的表达结果。人工智能生成内容应与人类作品持同一认定尺度,无需另立标准、施加更严苛的认定标准。当前,诸如儿童随手涂鸦的画作、随手取景的照片等人类创作物大多能被认定构成作品,人类大量投入研发、优化的人工智能算法生成的内容也应被认定为满足“创造性”的要求。

然而,需注意的是,人工智能生成内容是否构成作品,不可一概而论,并不是所有人工智能生成的内容都会被赋予著作权保护。个案中的人工智能生成内容所体现的个性化安排、人类参与投入的贡献度、对创作要素的选择等等不尽相同,故不宜对人工智能生成内容整体进行可著作权性认定。人工智能生成内容能否构成作品,应该具体考虑个案的不同情景,只有生成内容能达到作品的“试金石”——独创性的判断标准,达到作品的“可著作权性”要求,才可构成作品,受到我国《著作权法》的保护。

(二)“思想—表达二分法”的再认识

“思想—表达二分法”是著作权法对作品判断的一项基本原则,即著作权法只保护思想的表达(expression),不保护思想本身(ideas)。“思想—表达二分法”的创设逻辑是,人们学习既有作品的风格、灵感进而创作出新作品的能力十分有限,即使不保护在先作品中的思想,也并不会导致不同主体之间利益的显著失衡。然而,生成式人工智能可以在短时间内快速“学完”人类社会海量思想、知识和风格的基础上,进行无限的、全新的内容生成。人工智能参与到“创作”中,很容易瞬间学习到他人的创作思想和风格,然后输出表达完全不同而风格极其相似的结果。比如针对画家梵高的“星空”油画作品,人工智能可以生成无数的风格一致但表达完全不同的作品。基于此,在人工智能的著作权问题讨论中,“思想—表达二分法”的原则面临两大挑战:一是人工智能生成的内容哪些属于思想,哪些属于思想的表达,即应划定著作权法的保护范围。二是在人工智能生成内容的侵权判定中,“思想—表达二分法”能否继续适用。事实上,人工智能的创作行为实质上利用了人类所设定的创作方式,人工智能通过模仿人类的创作模式,学习既有作品的风格、创意,根据人类的文字指令,输出新的表达内容。其中,作品的风格、创意仍然属于思想的范畴,不具有独创性。当前,人工智能能够对相同的情境、文字指令,采用不同的、非模板化的描述,输出许多不同的表达。正如对同一主题思想,不同的人能写出不同内容的文字,人工智能相当于利用其算法规则和强大的机器学习能力实现了在短时间内围绕同一指令进行多篇写作,输出具有多样性的表达结果。因此,人工智能输出的多种表达结果如果能够满足前述“独立完成”和“创造性”的要求,即可构成作品,受到著作权法的保护。值得注意的是,当前人工智能对于思想的模仿和内容的产出已经可以达到以假乱真的程度。在此背景下,学界对于“思想—表达二分法”的讨论又进入一个高峰。关于原作品权利人主张人工智能生成内容构成侵权问题的化解,需要首先解决“思想表达二分法”划定的著作权保护范围这一基本问题。为此,应当从人工智能生成内容的全阶段进行思考。人工智能生成内容经历了“原有表达—提炼思想—新的表达”的生成过程,人工智能通过模仿原作品的风格、创意、构思、创作元素等进行了创作,这些内容属于思想的范畴,不受著作权法的保护。人工智能通过提炼原作品的“思想”部分,进行深度学习,再根据指令输出不同形式的表达,尽管外观上与原作品的表现形式类似,但生成内容已是经过算法运作后的新的表达,独立于原有表达,应当受到著作权法的保护。人类利用科学技术进步,极大地提高了学习现有作品的速度和提炼“思想”的效率,因而在认定生成内容与原作品的侵权认定判断中,应当重视“提炼思想”这一核心标准。

另一个重要面向是,对生成内容的法律分析,应注意区分数据输入阶段和输出阶段。在数据输入阶段,有观点认为人工智能在数据训练阶段,对大量的作品样本进行学习和模仿,属于对著作权人作品集中具有独创性的创作规律的侵权性使用。在著作权侵权认定的司法实践中,法官通常采用“接触+实质性相似”这一侵权认定标准,其中“接触”原则上由原告承担证明责任,即原告需要证明被告有“接触”在先作品的条件和事实,且被告具有非正当性目的。但是,这种证明对原告而言非常困难。生成式人工智能模型训练中的作品利用,是在模型内部进行的非外显性作品利用。这就导致了即使自身作品未经授权被人工智能模型用于训练,著作权人实际上也难以发现并提供相应的证据。根据目前实践,大模型公司并不会完全披露数据集的确切来源,原告所能提供的证据仅为大模型公司在训练过程中数据的权重和偏好及其与在先作品高度相似的生成内容。比如在纽约日报诉OpenAI和微软案中,原告提供的ChatGPT侵权行为最重要的证据,是《纽约时报》提供的100多个GPT-4输出内容和《纽约时报》报道文章高度相似的例子。通常认为,法院在构成“实质性相似”的认定中,应当以抽象过滤法为主,整体观察法为辅。但在数据训练的语境下,人工智能通过在大量既有作品中提取抽象内容,深度学习后,再添加属于公共领域的作品创作元素进行创作,对这一行为,按照传统的实质性相似的认定规则难以做出清晰判断,“思想—表达二分法”的适用范围受到严峻挑战。在输出阶段,针对人工智能生成内容是否侵犯既有作品著作权这一问题,著作权人也难以进行“实质性相似”标准的比对。生成式人工智能对于内容创作的颠覆性影响在于,其通过对在先作品思想、风格的吸收学习,以一种全新的方式,输出和既有作品相区分的内容表达。人工智能生成内容会与原作品“似曾相识”但又“似是而非”。如果按照传统的认定标准,由于学习了原作品的作品风格、模式进行创作,生成内容与原作品外观上“高度相似”,且能短时间内输出多种表达,思想与表达的界限更加模糊。相比于以往单部作品之间的认定,原作品需要与人工智能生成的多种表达进行比较,划出分界并非易事,“思想—表达二分法”原则的适用难度大大增加。

基于此,如果按照传统的著作权侵权认定方法,既有作品的权利人将面临举证困难、难以主张权利等问题,人工智能产业也将面临训练数据合法性检验的难题。然而,数据训练是大语言模型构建的必要阶段,运用人工智能技术生成新的表达,体现了人工智能产业发展的市场价值,司法实践因此面临适用“思想—表达二分法”的巨大挑战。尽管如此,“思想—表达二分法”的基本逻辑不应受到动摇。人工智能经过学习提炼的思想可以转化为多种不同表达,社会公众在实质性相似问题的判断上并不应因为是人工智能产生的内容就会发生标准变化。如对于风格相同的画像,公众依然能够通过市场辨别出名家画作和人工智能生成的画作,故而应当继续坚持“思想—表达二分法”的底层逻辑,通过市场的调节实现对进入市场的作品的消费和甄选。

综上,在生成式人工智能的技术背景下,与技术发展现实已经不相匹配的传统基础理论,应当进行适当的调适和发展,赋予其人工智能变革时代的新内涵,以便适应现实情况的新变化,更好满足权益保护和产业发展的需求。

三、署名与其他著作权分离的制度设计

在初步明确人工智能生成内容的作品可著作权性基础上,其生成内容的作者及权利归属自然成了无法回避的论题。著作权的取得方式是自动取得。对于典型的个人作品而言,作者与著作权人的身份同属一人,但对于委托作品、职务作品等特殊类型作品,两种身份又要分开讨论。因此,在人工智能生成内容的作者与权利归属的厘定中,应对作者认定与著作权归属进行分别讨论。智力成果无形性的根本特征决定了著作权依法律创设而生,因而对著作权人归属的分析应回归著作权法的设立目的。著作权法的设立目的在于保护并激发创作者创作的积极性,促进经济、科技的发展和文化、艺术的繁荣。人工智能在创造上具有超强能力,但并不会自主利用著作财产权推动知识信息的利用流动,无法实现法律赋予该权利之上的公共政策目标。倘若将权利分配给人工智能使用者,通过对使用者的著作人格权和财产权的保护,则能有效激励使用者的创作热情,使其继续利用人工智能创作出新的作品,形成一个对前端的激励和对后端权利行使的保障,构成一个有效的良性制度循环,最终达到增加社会福祉的目的。而倘若将人工智能视为著作权主体,就肯定了人工智能与人一样能够成为法律主体,那么在权利变动的意思表示、侵权责任的主体等问题上,就要为人工智能再次设定同等的权利和义务;在此背景下,如何认定人工智能的意思表示,如何判断人工智能的侵权故意等,不仅对现行法律是一个巨大的难题,而且是对伦理的颠覆性挑战。因此,无论从现行法的体系性协调,还是从著作权法的公共政策目标考量而言,将可以构成作品的生成内容的著作权归属于生成式人工智能的使用者,应是更为有效的制度选择。

对于作者的认定,则成为在现行著作权法体系中难以突破的难题。我国著作权法中作者的身份仅限于自然人、法人和非法人组织,并不包含人工智能。但实际上,人工智能无法做出与作者身份绑定的署名行为,人工智能生成内容的标注义务也无法从著作权法上得到解释。对此,本文认为,署名与其他著作权在制度功能上存在差异,署名有必要从著作权体系中分离,对著作权利体系进行更细化的制度设置。尤其在生成式人工智能领域,署名行为与其他著作权专有权利控制行为的分离规则,应当成为厘清生成式人工智能的作者认定及归属问题的基础。

(一)署名行为与其他著作权控制行为的分离与配置

署名与其他著作权的分离在我国现行法关于职务作品与委托作品的规定中已有例证。根据《著作权法》第18条第2款的规定,当作品符合一般职务作品的特征时,作者对该作品享有署名权,著作权人的其他权利则由法人或非法人组织享有。委托作品同样如此,作者为受托人,委托人与受托人作为合同双方当事人可以约定著作权是否归属于委托人。可见,尽管署名权属于著作人身权,但并不必然与著作权人的身份挂钩,而是与作者这一身份挂钩。在现行著作权法规则中,署名并不必然依存于著作权,二者存在分离的可行性。究其原因,在于署名与其他著作权在制度功能上有所区分。著作人身权保护作者的名誉和身份,其中署名通过标注创作者身份以达成该目的,而发表权、修改权、保护作品完整权等人身权主要是通过对创作成果的完整性与市场化控制以保障人格利益,著作财产权则在于保障著作权人基于作品而产生和利用的经济效益。换言之,署名作为作者身份和作品之间联系的符号表达,体现作品的实际来源,而其他著作权体现的是对作品流转的控制。从署名推定的法律效果来看,署名行为意在表示实际创作者与作品的真实关系,这种关系仅由创作行为本身所决定,并不必然映射出著作权人的身份。署名行为的主体应当遵循谁创作谁署名的基本逻辑,这亦是贯彻诚实信用原则的基本体现。目前,对人工智能或人工智能生成内容的标注义务已经被多个国家和地区列为法定义务,但该类要求并未从著作权法的角度被解释为署名行为。在我国,依据《网络安全标准实践指南——生成式人工智能服务内容标识方法》的要求,标注行为被具体化为显示水印或隐式水印,实践中也采用了该做法。但如果仅要求以电子水印的方式代替法律意义上的署名,既无法涵盖纸质化的人工智能生成内容,也容易使人工智能生成内容的署名遭到技术性篡改。对人工智能生成内容的标注要求应上升到署名本质,满足实践需求并实现与著作权法的衔接。给人工智能生成内容署名并不意味着给它人格或给它法律主体地位。署名应该是一种标识,表明作品出处,是一种客观事实的反映。

(二)生成式人工智能的特殊标识义务

《伯尔尼公约》将署名表述为“表明作者身份的权利”(The right to identify as author, the right to claim authorship),此后多数国家在本国著作权法中将署名行为与表明作者身份行为画上了等号,但也有少数国家将署名与作者身份权分设,将署名作为表明作者身份的下属概念。因此,署名行为体现的究竟是作者身份还是创作行为本身就值得商榷。从历史沿革来看,署名最初表明的仅是创作行为,是无需意思表示的事实行为,后随着人权意识的日益发展而最终被冠以权利之名,署名权中的人格属性是在权利化过程中被后来赋予的。在法国18世纪末《表演权法》之前,署名行为的主体在世界范围内并不以具备人格精神为前提。本文认为,在目前对如何将人工智能纳入“以人为中心”的法律体系的讨论甚嚣尘上之际,对其署名的讨论可以回归到署名权利化之前,以署名行为为中心进行评判。参与创作过程的人工智能可以基于创作事实进行署名标注,这是基于未来作品流通的市场秩序考量,更是诚实信用原则的体现。在人工智能署名行为的具体展开上,应当充分考量人工智能的风险属性,其署名应受到严格限制。自然人创作作品后,仅有以何种方式署名或不署名的权利,署名权不可转让、不可放弃。对于人工智能而言,由于人工智能本身应受监督与管理,其对署名自主选择的空间应当更为狭窄。署名的目的在于避免混淆,而人工智能生成服务的标注方式又相对固定。因此,人工智能的署名不仅是不可选择、不可放弃的,而且应当是强制的,且署名人或单位要对署名的真实性与可视化承担责任。这种强制标识义务与知识产权中的商标权较为相似。尽管商标权包括利用与排他权能,但根据《商标法》第6条规定,“法律、行政法规规定必须使用注册商标的商品,必须申请商标注册,未经核准注册的,不得在市场销售”。与此相对应,我国《烟草专卖法》第19条规定“卷烟、雪茄烟和有包装的烟丝必须申请商标注册,未经核准注册的,不得生产、销售”。事实上,尽管法律提出了如果不实际使用商标有可能面临商标被撤销的风险,但是原则上,法律对商标权人是否在商品或者服务上使用注册商标并未提出强制性要求。在国家严格管理的领域中,商标权人的商标利用权能受到限制,必须在该类商品或服务中使用注册商标以建立标识、形成品牌、避免混淆。人工智能领域同样如此,不同于普通商品或服务,人工智能的技术、设备、系统和应用具有多样性、复杂性和不透明性,其对社会、经济和个人隐私会产生潜在影响,故人工智能领域的标注行为同样应当被强制。这既是人工智能的特点所决定的,也是构建技术信任与科技伦理的前提。

(三)构建人工智能生成内容的多方权益共享机制

署名与其他著作权的分离,反映了不同类型的社会互动和符号交换的需求。署名关注的是个人身份的确认和社会认同的建立,是一种基于个人名誉和社会地位构建的符号交换,而其他著作权则更多关注作品如何在社会和经济领域中被使用和流通,涉及更广泛的社会经济互动和符号交换。著作权法中将署名与其他著作权的分离,表明法律体系承认了作者个人身份与作品经济利用之间复杂的社会关系,并提供了一种平衡这些不同需求和互动的方式。这种分离不仅保护了实际创作者的人格利益,而且提升了作品的社会和经济利用的灵活性,照顾到了人工智能设计者、使用者及与社会公众享受多样文化生活的利益。本质上,要求对人工智能生成内容进行署名行为的目的在于突破署名行为的权利外观,实现多方权益的平衡。

构建共享机制的更深层次原因在于,人工智能的精准有效治理并不能仅依靠公共部门,而需要多个环节的主体参与共建。仅以标识义务的实践为例,人工智能自身无法主动进行标注。从我国相关人工智能管理规定及欧盟《人工智能法》来看,人工智能的信息披露义务主体基本为人工智能服务提供者,这类主体具体指向了基础大模型开发者、垂直行业模型开发者、生成内容服务提供者等,基于人工智能生成内容的产生周期履行标注义务。因此,在人工智能服务提供者制定标注规则,人工智能服务使用者与社会公众进行标注监督的模式下,必须同时照顾好多方利益需求,才可更好地激励人工智能服务提供者更为积极地参与人工智能服务的开发与运营,更主动地进行内容标注与信息披露。

将著作权交予人工智能使用者本身,既可以保证使用者享有作品后续的流转与利用,也可以保证使用者不会对人工智能的署名产生排斥心理。在人工智能创作的语境下,对人工智能生成内容进行署名,将其他著作权分配给使用者,可以视为一种恰当的激励性分配方案。这种安排能够鼓励技术开发者、运营者、使用者之间的合作,促进人工智能技术和应用的发展。从经济效益的角度来看,这种权利的分配有助于最大化地利用人工智能创作的潜力,促进文化产品的多样化和丰富化,实现社会总体福利的增加。尽管要求对人工智能生成内容进行署名的行为可能会增加制度设计和实施的初期成本,但从长远来看,明确的署名要求也可以减少因权利归属不清而引发的法律纠纷,降低法律执行的成本,从而减少社会的总体制度成本。知识产权制度虽可通过赋予权利人独占性的权利实现对科技创新的激励,但对于多方主体共同参与的生成式人工智能创作模式,以传统权利专有的分配方式难以照顾到各方的权益,故应对人工智能生成内容的部分权利进行二次的拆解与分配,以多方权益共享格局激励更多的个人和企业投入更多的成本促进社会创新创造 。

四、人工智能训练数据的著作权合法性障碍

在阐明人工智能生成内容的作品属性、作者认定与权利归属等问题后,还应直面人工智能训练数据的著作权合法性障碍,剖析因技术发展而产生的法律难题。基于数据训练投喂以形成更加成熟的大模型训练效果已成为当下人工智能技术升级与模式迭代的必由路径,然而人工智能训练数据的路径不仅与现有法律秩序存在冲突,而且极大地影响了原有商业模式,冲击人们对于作品交易、数据喂养的既有认识和观念。人工智能训练数据的著作权合法性障碍具体表现为:占据著作权许可使用模式的主流方法“事前授权”式使用付费模式已难以满足海量学习模式的需求,人工智能机器学习在内容获取、内容输入与输出全阶段存在著作权侵权风险,多样化、复杂化的数据保护利益与仅进行著作权合规的不完整性之间存在矛盾。

(一)“事前授权”式使用付费模式与海量学习模式需求不符

基于“事前授权”的著作权使用付费模式是当下知识经济时代尊重他人智力成果、维护市场运行的基础模式,这种模式的运转本质上呈现出财产规则的运行逻辑——通过著作权法赋予著作权人一种谈判的机会与能力,使之能在市场的运作中实现智力成果的有效流转,促进创新成果的产出与知识的分享。然而,数据训练作为人工智能技术发展的底层支撑,其数据喂养规模常常达至海量,传统著作权“事前授权、使用付费”的交易模式难以满足人工智能时代海量学习的需求。本质而言,海量学习模式的出现是由于技术自身的特性以及技术发展的必然所致,知识经济时代下数据的经济价值因技术的迭代升级得以提升。就数字化技术的特性而言,文本与数据挖掘作为实现数据获取及数据分析的底层技术,其可发现性与模式识别的用途能有效地从海量的数据中获取数据价值、实现大规模数据的价值分析与趋势预测;就技术发展的必然而言,海量知识学习模式符合技术发展升级的需求,人工智能技术以及未来可能数字化技术的迭代需要以海量数据作为学习、训练的底层支撑,这种技术发展的必然趋势不仅是社会群众对于数字化时代提升生活便利及幸福感的内在需求,而且是社会公共福利及经济价值总量增长的价值需要。

然而,海量学习模式的运转不仅仅需要大量数据的支撑,而且需要更加灵活地规范交易模式以实现知识的流转,传统的“事前授权”式使用付费模式在实践中已难以支撑海量数据学习模式的需要。在此种情况下,“事前授权”式使用付费模式与海量学习模式需求之间的不契合反映出人工智能数据训练的需求与现有著作权交易模式的不适应,这种不适应的障碍容易导致交易效率的低下、交易成本的增加,人工智能数据训练效果的不明显:首先,“事前授权”式使用付费模式容易导致数据交易流程的冗杂以及交易效率的低下。就“事前授权”的流程而言,依据《著作权法》的规定,数据需求方需要在事前获取著作权人的许可授权,以避开潜在的侵权风险。然而,数据需求方对于相关作品的授权获取并非简单的“发出要约、达成合意”的过程,往往需要经过反复的利益谈判与衡量才能获取数据主体交易的真实意思表示,交易流程的烦琐以及有限理性假设的存在往往会导致交易结果并非尽如人意,数据获取的效率也会因之降低。其次,人工智能时代下“事前授权”式使用付费模式的运作也容易产生过高的交易成本,这种交易成本主要涉及数据获取的识别成本以及数据交易的谈判成本。就识别成本而言,人工智能技术的运转需要海量数据予以支撑,这些数据不仅来源于不受著作权法保护的公共领域数据,而且包括著作权法保护范围内的作品数据,特别是高质量数据大多集成在具有著作权保护的作品之中。然而,对于著作权法保护范围内的作品数据收集不仅需要识别作品的来源及权属,而且需精准定位作品的真正著作权人,这无疑给人工智能服务提供者造成较大的交易负担。此外,就谈判成本而言,在确定所需收集的作品以及著作权人后,还需就作品数据获取的价格以及授权范围进行谈判沟通。如所获取的数据存在权属不清、来源不明的情况,人工智能服务提供者的交易成本无疑水涨船高,难以满足机器学习的数据训练需求。最后,从实践效果来看,传统的“事前授权”式使用付费模式并无法真正实现海量知识学习模式的高效运转,对于知识的获取以及数据价值的挖掘效果不佳。人工智能依托大模型应用实现海量数据处理并实现智能内容的生成,其机制运转的关键在于数据能否被大批量、成规模地获取以支撑大模型的迭代升级。数据获取作为人工智能技术应用与发展的前端,关系着数据价值挖掘是否充分以及输出结果是否客观、全面。

传统的“事前授权”式使用付费模式已经严重阻碍了数据获取的效率,加重了人工智能服务提供者的运作负担。在追求知识增量的年代,此种交易模式已经与极速发展的知识经济时代脱节。

(二)机器学习内容的获取、输入与输出全阶段蕴含着较大的著作权侵权风险

生成式人工智能技术的迭代与应用需要成千上万的数据予以支撑,其数据训练的需求主要体现在数据数量、多样、质量、领域特定、多模态、实时、长期演进、平衡、合规以及多语言等方面。就数据的来源而言,人工智能所训练数据不仅来源于公共领域的作品数据,而且来源于尚在著作权保护范围内的作品数据,后一类数据的获取如未取得相应著作权人的授权,则不可避免地导致侵权风险的发生。此外,不仅仅在数据来源阶段存在著作权侵权的风险,而且数据内容的输入及输出环节都容易因违法行为的存在而侵犯著作权人的合法权利。尽管有观点认为,机器学习的各个阶段中数据的处理行为仅为对作品内容的“非作品性使用”,因此并不构成著作权侵权。然而,基于机器学习的本质,人工智能所输入及输出的内容实际上是对作品价值的深层次挖掘,本质上涉及对所收集作品数据的表达性使用,因而相应的作品使用行为如未获得著作权人的许可,则很有可能构成著作权侵权。

一般而言,文本与数据挖掘作为人工智能机器学习的底层技术,对数据的处理基本涵盖了信息搜寻、分析等处理活动,其过程主要包含对于数据内容的获取、内容输入及最终结果输出三个主要环节。就数据内容的获取而言,主要是通过爬虫、API接口对接等数字化手段实现数据的大规模获取,并在爬取数据之后将其存储至特定的服务器中以便进行后续的数据预处理。数据内容的输入环节主要是将所收集的数据转码为相应结构化的数据,并进行清理、分类等,最终形成与需求相对应的新数据集合,实现数据内容的针对性输入,为人工智能机器学习提供基本的数据资源。内容的输出环节则主要是将所处理和分析的数据结果分享至合作方或公开至公共领域,实现数据内容价值的分享与分析结果的输出。在经历上述三大步骤之后,人工智能完成了对必要数据内容的机器学习以及分析输出。然而在数字化背景之中,以上三大技术步骤的操作难以避免地存在著作权侵权的风险。

从所侵犯著作权专有权利的形态而言,机器学习的内容获取、数据输入以及内容输出全阶段可能侵犯著作权人的复制权、演绎权以及信息网络传播权等权能。内容获取阶段主要可能涉及对著作权人复制权的侵犯,在此阶段,人工智能往往通过爬虫技术等数据收集手段大批量地从互联网中爬取数据,其中所用技术往往是数字化形式的扫描和文本提取,如果未经著作权人许可,此种行为往往落入《著作权法》中所规定的“复制权”的范围之中,容易构成对著作权人复制权的侵犯。数据输入阶段主要可能涉及对著作权人的改编权、汇编权的侵犯。由于机器学习的需要,人工智能的训练往往需要将所收集的数据转码为相应的结构化数据,而转码的行为必不可少地涉及对原有数据内容的调整,包括对数据格式的转换修改、整理删除以及汇总等,这难免会构成对著作权人的翻译权、改编权以及汇编权的侵犯。而在最终内容输出的环节,所输出的结果常在互联网上以数字化的方式传播呈现,如果所输出的分析结果涉及原有作品的内容而未经著作权人许可,很有可能造成对著作权人信息网络传播权的侵犯。

(三)数据保护利益的多样化与复杂化致使仅著作权合规已为不能之事

人工智能训练数据,主要通过爬虫、API接口对接等自动化数据抓取方式高效捕获、汇聚和存储了大量数据,具有样本多样性、数据规模性等技术特征。用户数据、企业数据、公共数据等不同形态的数据都可以作为人工智能训练数据的重要来源,涉及个人信息利益、财产利益、国家公共利益等多元数据保护利益,承载着多样化、复杂化的利益内容,导致基于单一化著作权合规的规制存在合法性障碍。

首先 ,用户数据承载着个人信息利益,需要接受个人信息保护的法律规制。从人工智能训练数据机制来看,用户数据在机器学习中发挥着不可替代的作用:一方面,用户数据是互联网中最广泛的数据类型,以大数据技术为支撑的人工智能训练数据在自动数据抓取阶段不可避免地会涉及对用户数据的使用与提取。另一方面,凭借对用户数据的收集与分析,机器能够完成更加拟人化的机器学习过程,使其最终的智能决策、分析结论更符合人类思维逻辑与行为方式。用户数据作为对个人身份、互联网行为特征的全方位记录,基本表现为具备可识别性的个人信息。其中,电话号码、家庭住址、职业信息等用户数据具有直接识别性,当然可以作为个人信息受到保护。相比之下,就邮箱、游戏账号等数字化虚拟用户数据而言,人工智能训练主体虽然无法凭借相关数据直接定位现实中的特定主体,但在海量数据聚合背景下,可以与其他数据相结合而识别特定自然人,因而邮箱、游戏账号等数据具有间接可识别数据用户的属性,同样属于个人信息范畴。根据《个人信息保护法》《网络安全法》等法律规定,个人作为用户数据主体,对其用户数据享有个人信息利益。人工智能训练数据应需要确保已经取得用户等个人主体的授权许可,或者确保该用户数据已经得到清洗、脱敏,符合非个人信息特征。从最新发布的《生成式人工智能服务安全基本要求》来看,保障个人信息利益已经成为人工智能服务提供者履行语料内容安全要求的重点内容之一。

,企业数据之上承载个人信息利益和财产利益,需要接受个人信息保护和竞争法的法律规制。海量的用户数据经过企业等数据主体的收集与汇聚即形成规模化的企业数据。由于此类数据集合可以反映出市场客观规律,预测未来趋势,故其构成人工智能训练数据的重要来源。从人工智能训练数据的实例来看,OpenAI在训练其人工智能产品ChatGPT时,就将Raw Story Media和Alter Net Media等新闻机构的一系列新闻稿件作为人工智能训的练数据来源,并因相关数据使用行为未经机构授权许可而面临著作权侵权纠纷。企业数据承载着包括个人信息权益、财产利益等在内的多元利益形态。一方面,企业数据来源于不同的用户数据,在一定程度上可以视为对个人信息的集合。如果人工智能训练数据具备直接或间接可识别性,可被识别定位为特定自然人主体,则该数据集合之上依然承载着用户的个人信息利益。此时,人工智能训练数据需要通过个人信息保护的法律规制,以消除数据集合中潜在的对个人信息权益的侵权风险。另一方面,企业数据产生方式凝结了数据主体的劳动成果及其利益诉求。企业数据通常是企业等数据主体收集、分析、加工数据后所获得的数据集合,凝结着企业等数据主体财力、物力与人力等劳动投入,由此产生了值得产权制度保护的财产利益。目前,不同客体形态下企业数据的财产利益已经获得司法的保护与认可。在谷米诉元米案、淘宝诉美景等案中,法院即认为企业开发的数据集合能够为权利人带来现实或潜在的经济利益,具备无形财产属性,企业应当对该数据集合享有独立的财产性权益。尤其在企业数据的作品属性受到广泛质疑且企业数据财产权立法缺位的现状下,更多法院选择以《反不正当竞争法》一般条款作为规制范式,强化对企业数据中财产利益的保护。

最后 ,公共数据承载着公共利益和国家利益,需要接受数据安全的法律规制。在公共数据授权运营与政务信息公开背景下,公共数据可以直接作为人工智能训练输入的数据来源。公共数据具有高可信度、获取成本低、侵权风险低等优势,有利于提高人工智能训练数据及其输出分析结果的质量。联合国贸易和发展会议2021年数字经济报告中的公共数据以“收集数据出于政府目的且主要被公共部门使用的数据范畴”为基本内涵,以公益性作为其核心价值内涵,因而承载着明显的公共利益和国家利益。一方面,公共数据作为承担社会公共职能的基础资源,具备社会公共利益属性,故对人工智能训练阶段使用和提取公共数据行为的合法性评价应当包含不得损害社会公共利益等方面。另一方面,公共数据作为由公共部门发布的官方数据信息,与金融、科技、医疗等重点领域的国家安全息息相关,因此在推进人工智能训练数据著作权合规治理的同时,还应当重点进行数据安全合规审查,以避免数据训练行为泄露或暴露与国家安全密切相关的公共数据 。

五、多元化方案解决人工智能训练数据的著作权合法性障碍

前述问题并非单一片面的问题呈现,而是在现有体系中复杂交错实际市场活动的问题的集中反映,故解决该系列问题时,不能单独针对某一方面问题提出方案,而应当采取体系性多元化的方式化解著作权合法性的障碍。智能领域的创新离不开合规的数据处理,但人工智能训练数据的合规方案目前还未明确,如果不能解决合规问题,人工智能技术的发展将寸步难行。当前以事前授权为基础的著作权制度难以满足生成式人工智能对海量数据的训练需要,因而有必要使用多种制度工具,建立多元化的解决机制,探索针对人工智能训练数据的著作权障碍的解决方案。

(一)合法购买数据与合同约定风险

获取合法的高质量数据是人工智能模型合规发展的重要前提,因此事前购买高价值著作权内容,并以授权合同约定各方风险承担的交易模式是人工智能企业获取训练数据的重要方式。在特定场景下,这种事前交易模式有着保证数据质量、激励创意产业,规避侵权风险等优势,具备一定的经济效率。如在网文、有声书、数字音乐等产业领域,个人创作者往往将作品著作权的行使交予内容平台代理,人工智能开发者直接向平台购买数据即可获取海量著作权资源。一些人工智能开发者自身也是大型互联网平台,可以通过“以服务换数据”的方式免费使用用户上传的作品,并以“用户协议”等格式条款划分各方风险,要求用户自行解决数据的授权问题并承担可能的侵权责任。

然而,由于人工智能训练数据具有数量大、规模广、价值密度低等特征,传统的数据购买模式并不能适应模型开发者对数据规模化利用的需求。目前由内容平台代理的著作权内容多为单独具有使用价值的作品,并不包括用户生成的海量数据,而后者才是人工智能训练的主要材料。同时,当前我国中文语料数据库仍存在标注标准不一致、数据重复、时效性不强等问题,数据交易机构长期处于沉寂阶段,数据交易并未出现预想中的热潮。另外,“以服务换数据”的方式仅适用于大型互联网企业,新兴企业因用户基数不足难以获取充足数据,且缺乏购买海量数据的充足资金,在数据竞争中往往处于劣势,新兴企业数据获取能力的不足加大了数据训练市场被互联网巨头垄断的风险。综上,数据交易的方式虽在特定场景具有一定的优势,但不宜作为人工智能企业获得训练数据的唯一来源。

面向人工智能创新应用的新时代,我国数据交易市场也应积极寻求转型突破,适应企业获取训练数据的现实需求。就交易平台而言,可针对人工智能训练市场,将现有的通用数据交易所转型为“AI数据交易合同”模式,为企业训练人工智能提供定制化的训练数据。就交易标准而言,相关市场主体和监管部门可共同规范训练语料的标注标准,以便语料数据的交易流通。就合同内容而言,人工智能训练方需要遵循诚实信用原则,明确告知数据提供方相关数据的用途并获得授权,避免因超出授权范围使用数据而面临违约风险。

(二)借用互联网治理规则提供创新机遇

作为信息时代的关键技术,人工智能和互联网技术均改变了人们获取、处理和分享信息的模式,对知识产权制度提出了新的挑战。与互联网时代类似,目前人工智能并没有确定的发展蓝图,因此可以运用互联网治理的相关规则,在人工智能数据训练阶段打开著作权合理使用和“避风港”规则闸口,为生成式人工智能产业提供创新发展的空间。

其一 ,适当打开著作权合理使用的解释范围,将生成式AI的数据预训练行为视为合理使用的一种类型。从技术逻辑出发,人工智能模型的构建分为“预训练”和“微调”两大阶段,其中预训练阶段主要是将收集到的数据输入初步模型,以便初步模型通过算法分析数据以优化模型效果。在此过程中,对数据的分析和学习仅在人工智能内部进行,并不产生同创作者竞争的内容,也不与其他公众的权益产生接触,因此不会对著作权人的作品产生替代效果,不应当受到传统著作权法的限制。从产业政策视角出发,庞大的训练数据规模是人工智能大模型生成理想结果的基础,而互联网内容的著作权则分散在各个创作者处,要求AI研发者事前逐一获得著作权人授权无疑会耗费巨大的交易成本,造成“反公地悲剧”。而合理使用制度则可减轻人工智能技术的研发负担,促进人工智能产业建设和内容创作,为社会带来更大福祉。从制度竞争的视角出发,目前欧盟《数字化单一市场版权指令》的“文本和数据挖掘例外”制度为人工智能数据训练行为提供了合理使用的依据;美国法院在谷歌和甲骨文案件中放宽了“转换性使用”的标准,特别是将机器阅读排除在著作权法之外,为后续对以转换性使用作为核心判断要素的合理使用的扩大解释提供了机会。为应对世界人工智能制度竞争浪潮,提升我国人工智能产业的国际竞争力,有必要通过合理使用制度放松模型训练中的著作权限制。

其二 ,适当借鉴传统互联网内容平台中的“避风港规则”,探索建立一套适应人工智能产业发展的责任分担机制。在此机制下,生成式人工智能服务提供者应当尽可能地使用真实合规的训练数据,并在信息生成阶段设立过程性的风险预防和审查机制,尽量减少错误内容和侵权信息的输出。与此同时,还应设立投诉通知机制,允许用户和权利人就违法不良信息向人工智能服务提供者提出投诉,接到投诉后,人工智能服务提供者应当在合理期限内采取数据清理、算法调整等必要措施,避免违法内容的传播和扩散。相应地,在生成式人工智能服务提供者充分履行事前合规义务后,若因使用者恶意诱导大模型侵权或因现有技术问题无法消除违法侵权内容,则应当减轻或免除服务提供者的责任。这种以过程为中心的责任分担机制能够为人工智能开发者提供明确且有条件的免责预期,引导其主动采取合规方式,防范社会风险,稳定个体预期,促进产业发展。

(三)通过集体管理组织解决授权难题

在当前法律框架下,著作权集体管理是批量解决海量作品授权较为可行的方法,能够提高授权效率、减少交易主体、降低权利人协商成本和监督成本,因而受到域外多国的青睐。目前,我国已经具备音像协、音著协、文著协等五个著作权集体管理组织,此类集体管理组织可以依据集体许可标准同人工智能开发者进行谈判,代权利人发放作品使用授权,满足商用人工智能模型的数据使用需求。但是,传统的集体管理组织存在授权模式单一僵化、管理组织机制滞后、数据覆盖范围有限等问题,在智能时代面临前所未有的挑战和冲击。因此,有必要革新著作权集体管理组织制度,使其充分发挥著作权集体管理的保障效能,适应人工智能海量数据学习的现实需要。

针对授权模式僵化的问题,我国著作权集体管理组织应当拓宽权利人对交易模式和定价机制的选择空间,允许其在将作品授权给集体管理组织后自行授权,并吸纳一部分权利人参与作品使用费的定价协商,以更灵活的选择吸引更多优质作品进入集体管理组织的“版权池”。此外,应打破单一的概括许可模式,允许著作权使用者自行选择授权模式,按照使用内容的质量和频次精准收费,满足不同类型和规模使用者的需求。针对管理组织机制滞后的问题,需要完善集体管理组织的内部治理机制。一方面,需要增强集体管理组织运作机制的透明度,让权利人和使用者明确了解组织的管理和分配规则。另一方面,应当改进集体管理组织的决策机构,确保权利人和相关专业人士,特别是人工智能等新业态从业者在组织决策中有更大的发言机会和影响力,推动著作权集体管理组织与时俱进。针对数据覆盖范围有限的问题,则可以尝试采取延展代理机制,在拓展使用者获得合法数据渠道的同时保障权利人获取报酬的机会。延展代理制度始于2012年法国知识产权法律体系,用以解决绝版图书的授权使用问题。该制度规定绝版图书的权利人应授予法国作者利益代表协会代表其行使权利,但允许作者通过事前或事后的退出机制撤回授权。而我国在《著作权集体管理条例(修订草案征求意见稿)》第4条中也提到“著作权法规定的表演权、放映权、广播权、出租权、信息网络传播权、复制权等权利人自己难以有效行使的权利,可以由著作权集体管理组织进行集体管理”“在使用者难以获取所有权利人授权的特定领域使用作品的,经国家著作权主管部门备案,由著作权集体管理组织集中管理相关权利”,这一规定与延展代理的制度内涵相契合。因此,可将某一领域的作品授权集中于著作权集体管理组织处,以集中授权的方式解决人工智能训练数据的合规难题,推动构建更加健全和可持续的知识产权良性保护生态。

(四)利用开放授权的数据资源

开放授权的理念始于计算机软件的“开放源代码”运动,后来在“创作共用”和“开放共享”的理念下,开放授权机制被引入了著作权领域,表现为知识共享协议(Creative Commons,简称CC许可协议)。经由知识共享协议,著作权人可在“保留绝对权利”和“公共领域捐献”之间选择作品的开放程度,如要求使用者尊重作者署名权或不得将作品用于营利性使用等。而若使用者违背知识共享协议,权利人则可以终止授权,并依据传统知识产权法律维护自身权利。生成式人工智能与知识共享协议在价值理念与实际应用上有很多契合之处。在价值理念层面,知识共享协议具有降低信息获取成本、促进创意产品交融分享的价值取向,与生成式人工智能在促进创新和内容传播等方面有相通之处。在实际应用层面,知识共享协议作为一种事前授权机制,可以有效节省人工智能创作者同著作权方协商交易的成本,在尊重作者合法权利的同时大大扩张了人工智能数据训练可利用的作品范围。目前,维基百科等主流WIKI社区均已采用CC许可协议等方式开放授权,这些开放授权的海量作品已经成为生成式人工智能训练的重要数据资源。

然而,当前知识共享协议在我国处于早期发展阶段,目前主要应用于开放教育课程、开放获取期刊资源等领域,公众对开放授权理念的了解和认知不足。此外,我国的著作权产业发展水平同国外相比仍有差距,与开放授权配套的法律制度尚不完善,因此亟须完成知识共享协议的本土化改造以适应我国人工智能数据训练的现实需求。在著作权法律体系内部,应当明确合理使用和开放授权的关系,将人工智能训练者对作者保留著作权范围内著作权的正当使用行为认定为合理使用,以减轻人工智能训练者的侵权风险,并维持知识产权法律体系内部的一致性。例如,若商用人工智能模型利用开放授权的作品进行模型预训练,而该作品的权利人要求使用者不得将作品用于商业目的,则模型训练者仍然可以主张自己的行为构成合理使用。在管理模式上,可以参考现有开源社区的管理机制,建立服务创作者的非营利性中介组织,以监督开放授权数据资源使用者的著作权利用活动,尽可能地维护创作者权益。在侵权责任承担方面,由于当前知识共享协议效力的实现仍然依赖著作权法机制,若使用者违反CC许可协议超越范围使用授权内容,权利人只能依据《著作权法》追究使用人的著作权侵权责任,此时会大大增加权利人维权的时间成本和经济成本。因此,可尝试探索建立人工智能数据训练领域的信用惩戒制度和自律管理体系,将违背知识共享协议使用开放数据的不诚信行为纳入知识产权信用体系的监管 。

结语

法律制度对人工智能发展的保障应当始终坚持以人为本的理念,这里的“人”既是人类的“人”,也是个人的“人”。在此理念的指引下,人工智能内容生成所反映的种种问题都是当下现实世界与技术演变之间的“发展之问”,著作权制度作为科技与法律相互作用、相互影响最为直观的制度规范,正面临着传统理论与现实产业发展之间的挑战,如何因地制宜地寻找适应产业发展与技术升级的规范措施成为当务之急。著作权制度自创立以来,便带着浓厚的政策色彩。人工智能生成内容的法律规制不仅与著作权人的核心利益切身相关,而且与产业发展、技术进步紧密相关。但无论新质生产力的出现对现有制度规范带来如何猛烈的冲击,著作权制度都不能成为技术进步以及经济发展的绊脚石,更不能成为人工智能新质生产力发展的拦路虎。

因应技术发展的必要性,著作权制度理应合理回应“发展之问”所带来的种种挑战,就人工智能内容生成过程中所面临的作品认定、作者身份、权利归属以及数据训练等等难题给予多元化、多层次的解决方案,综合运用合同、互联网治理规则、著作权集体管理组织、数据资源开放授权以及法定许可制度等法律工具,由浅入深、由表及里地实 现著作权制度的“去伪存真”。