1
问题的提出
(一)基本案情
原告殷某某系一名配音演员,其经朋友告知,发现自己的声音被AI化,他人利用该AI声音制作的作品在多个知名APP广泛流传,原告表示从来没有授权过任何人或公司将自己的声音AI化,但在一些短视频平台用户发布的视频中,使用的却是基于原告声音制作的AI配音。经声音筛选和溯源,原告发现上述作品中的声音来自被告一北京某智能科技公司运营平台中的文本转语音产品,用户通过输入文本、调整参数,可实现文本转化成语音的功能。
原告曾接受被告二北京某文化传媒公司的委托录制录音制品,被告二为录音制品的著作权人。后被告二将原告为其录制的录音制品的音频提供给被告三某软件公司,允许被告三以商业或非商业的用途使用、复制、修改数据用于其产品及服务。被告三仅以原告录制的一部录音制品作为素材进行AI化处理,生成了案涉文本转语音产品并在被告四上海某网络科技公司运营的云服务平台对外出售。被告一北京某智能科技公司与被告五北京某科技发展公司签订在线服务买卖合同,由被告五向被告三下单采购,其中包括了案涉文本转语音产品。被告一北京某智能科技公司采取应用程序接口形式,在未经技术处理的情况下,直接调取并生成文本转语音产品在其平台中使用。
原告主张,被告的行为已经严重侵犯了原告的声音权益,被告一北京某智能科技公司、被告三某软件公司应立即停止侵权、赔礼道歉,五被告应当赔偿原告经济损失、精神损失。五被告均否认侵权,主张人工智能合成后的声音产品,与自然人声音在人身权属性上有所区别,目前的技术都会对人工智能合成声音进行水印标记,这切断了人工智能合成声音与自然人声音之间的联系,不会产生对应自然人的人格属性,不具有对原告人格的可识别性。
(二)裁判情况
北京互联网法院(2023)京0491民初12142号民事判决书认为:原告声音权益及于案涉AI声音,未经许可使用原告声音构成侵权,赔偿损失应当考量被告侵权情节、同类市场产品价值等因素。判决被告一北京某智能科技公司、被告三某软件公司向原告赔礼道歉,被告二北京某文化传媒公司、被告三某软件公司向原告赔偿损失共计25万元。
(三)争议的问题
本案原告作为配音演员,对其声音享有权益,被告三某软件公司作为上游技术开发公司,在仅将原告声音作为素材的基础上,对原告声音进行AI化,生成案涉AI声音,并将该AI声音产品提供给下游文化产品服务提供者被告一北京某智能科技公司,进而面向终端用户提供服务。该案涉及最初的声音数据采集、数据处理、人工智能合成直至最后到用户使用,完整显现了AI生成声音全链条、各环节。本案争议的主要内容为:一是原告声音权益是否及于案涉AI声音,即AI生成声音能否识别出原告;二是被告对原告声音的使用是否有合法授权;三是被诉行为是否构成侵权以及如构成侵权,应承担何种法律责任。
本案系全国首例AI生成声音侵害人格权案,实践中,因声音权益受到侵害引发诉讼的案件相对较少,从前述争议的内容来看,亟需司法回应的问题集中在以下三方面:
一是声音权益的内涵是什么。首先,声音的性质存在争议,究竟属于具体人格权、一般人格权益还是法定的人格利益存在不同的观点。其次,对自然人声音的保护参照适用肖像权保护的有关规定,“参照适用”语境下,声音权益的内容又涵盖哪些方面。最后,声音侵权类案件,法院应当如何适用法律规定进行裁判。
二是AI生成声音是否具备可识别性,原告声音权益是否可以及于AI生成声音,其可识别性判断应当考量哪些因素。
三是AI生成声音侵害声音权益的侵权行为、损害后果该如何认定,需要考量哪些因素。声音权益作为一项人格利益,其适用人格权请求权、损害赔偿请求权,各侵权主体的责任该如何承担。围绕上述三个方面问题,本文将逐一展开详述。
2
声音的内涵
声音权益是法定的人格权益,声音权益本质属性是“受尊重权”,维护人之为人的尊严,排除他人非法侵害。声音权益专属于自然人,不包括法人、非法人组织,该权益无法转让、也不得被限制。
此外,关于AI生成声音的权益归属问题,还需回归到AI生成声音的可识别性判断上来。如果文本转语音软件生成的AI声音,是一种全新的、无法识别出其他自然人的声音,那么就该AI生成声音自然人无法享有人格权益,但开发者可就该文本转语音软件享有著作权等权利;如果仅是将某个自然人的声音AI化,生成的声音虽然带有一定的人工智能语音特征,但仍能识别出自然人身份,那么自然人的声音权益就可及于该AI生成声音。声音权益的客体是声音利益,是声音所体现的人格利益。该人格利益,既包括经济利益又包括精神利益。
3
AI生成声音的侵权判定
人工智能时代,人的声音被收集、使用变得更加隐蔽、便捷,基于语音合成技术,通过学习收集到声音素材进行训练,可实现对目标声音特征的模仿,这使得配音变得简单、成本也更加低廉,在一定程度上促进了短视频创作。与之相伴的是,语音合成技术的发展也引发人们对声音权益侵害的担忧。
(一)AI生成声音侵权类型
语音合成技术主要指文本转语音(Text-to-Speech),利用深度学习技术,通过神经网络直接学习文本到语音的映射关系,无需复杂的特征提取和声学模型,便可以将文本转化为语音,生成自然、富有表现力的声音。AI生成声音侵权行为可划分为以下两种类型:
一是声音合成。声音合成是指由声学模型通过大量的声音材料训练转化来的一段新的语音数据。声音合成主要依靠深度神经网络技术,提供高度拟人、流畅自然的合成语音,将文本转换为有声读物。声音合成的侵权表现形式为未经自然人许可,将自然人声音作为素材进行训练。未经许可进行声音合成,构成对自然人声音权益的侵害。如前所述,此种方式属于使用声音生成新的声音,自然人的声音权益是否及于新的声音,需要从主观标准、客观标准、使用方式三个方面综合判断。
二是声音模仿。AI生成声音语境下的声音模仿是指通过对自然人声音数据进行学习,通过文本转语音技术定制AI声音。如果利用某个自然人的声音进行朗读,需将该自然人的声音片段进行“投喂训练”,往往素材越多,声音的准确度、还原度越高。在“投喂”声音的过程中还可以进行微调训练,让AI自主学习“投喂”的声音数据的音色、音调等信息,随着训练次数的增加,生成的AI声音就与该自然人的声音越相似。如前所述,此种使用方式属于单独使用声音,若未经自然人许可将其声音作为训练素材,构成未经许可使用,侵害自然人声音权益。生成的AI声音是否具备可识别性可从使用方式、主观标准、客观标准三个方面综合判断。此外,声音模仿容易引起公众误认,以为是自然人原始的声音,可能还会造成自然人人格尊严的贬损。
(二)认定AI生成声音构成侵权的法律要件
《民法典》第995条规定,“人格权受到侵害的,受害人有权依照本法和其他法律的规定请求行为人承担民事责任。受害人的停止侵害、排除妨碍、消除危险、消除影响、恢复名誉、赔礼道歉请求权,不适用诉讼时效的规定。”若存在侵害行为或者对人格权有侵害之虞,权利人即可主张相应的请求权,至于行为人是否存在过错在所不问。该条规定意在充分尊重自然人的人格权益,给予自然人人格更积极充分的保护,从而实现保护人格尊严的目的。在AI生成声音侵害自然人声音权益案件中,认定构成侵权的要件需要从侵害行为、侵害后果、因果关系等方面综合考量。
一是侵害行为。AI生成声音的侵权行为是指未经许可的声音使用、公开等行为,主要类型包括未经自然人许可且不构成合理使用的声音合成、声音模仿,其中通过声音合成生成新的声音,就该新的声音许可他人使用行为能否被权利人控制,需要判断新的声音是否具备可识别性。
二是侵害后果。声音权益属于法定的人格权益,可适用人格权请求权之规定,行使人格权请求权不以造成权利损害的后果为要件,对于可能发生的妨害或已经存在的妨害,权利人可以通过停止妨害请求权寻求救济。权利人行使侵权请求权时,需要以存在一定损害作为前提,以补偿救济权利人。
三是因果关系。AI生成声音的侵害行为、侵害后果之间需具备相应的因果关系,即因侵害行为的存在导致相应侵害后果的发生。只有确定了相应的因果关系,才能要求侵害人承担相应的责任。
(三)AI生成声音各侵权主体责任划分
《民法典》第998条规定,“认定行为人承担侵害除生命权、身体权和健康权外的人格权的民事责任,应当考虑行为人和受害人职业、影响范围、过错程度,以及行为的目的、方式、后果等因素。”关于声音权益遭受侵害后的归责原则,参照肖像权,权利人在声音权益遭到侵害后,其请求损害赔偿,应当适用过错责任原则。
AI生成声音的各侵权主体涉及上游供应商、中间经销商、下游购买商,相对应的责任划分亦有所不同。作为上游供应商,开展原始声音数据收集与处理,其应当负有较高的审查义务,需确认获得自然人的授权许可。中间的经销商与下游的服务提供者,无法对声音的来源进行审查,如果对其苛以AI声音产品最初数据来源授权确认,不仅无法保障行业交易的效率,而且其也无法追溯到最初的数据来源。
文章来源:《法律适用》2024年第9期
热门跟贴