将受版权保护的作品“投喂”给AI大模型训练,是否构成侵权?这是摆在国内外司法裁判者面前的棘手难题。

6月20日,备受关注的“Trik AI”绘画大模型被诉侵权使用训练语料案,在北京互联网法院开庭审理。作为原告的四位插画师指控,涉案大模型的运营方未经授权,将原告美术作品用于训练AI模型并应用于商业用途,已经远超合理使用范畴,侵害了画师的权益。

而运营“Trik AI”的被告公司辩称,被告的大模型训练行为即使使用原告作品,也应属于合理使用,不构成侵权。

目前,该案正在进一步审理中。

管辖权争夺

四位画师为某社交平台注册用户,长期在该平台上发布创作的绘画作品。南都获取的一份起诉状显示,画师之一的“雪鱼”介绍,2023年8月,他发现有用户在该平台发布了带有明显模仿其作品痕迹的图片,这些用户均表示图片通过“Trik AI”生成。

“Trik AI”
打开网易新闻 查看精彩图片
“Trik AI”

遭遇相似情况的四位画师后来联手,将“Trik AI”的运营公司诉至法院。涉案的三家被告公司为伊普西龙信息科技(北京)有限公司、伊普西龙信息科技(上海)有限公司,以及上述某社交平台的运营公司A(下称“平台公司A”)。原告方根据涉案“Trik AI”软件用户协议、宣传推广资料等,认定该款软件由三被告共同开发运营。

2023年10月20日,“Trik AI”案正式立案,此后经历过一轮管辖权的程序争议。去年11月17日,北京互联网法院驳回了平台公司A提起的管辖权异议。

据南都获取的裁定书,平台公司A主张生成式AI大模型训练的行为分为两步:第一步,通过购买数据库、公开爬取等方式获得海量内容数据,进行一定形式的转换之后,存储在相关服务器之中;第二步,对内容数据进行分析处理,以发现一定的模式、趋势以及相关性并转变为大模型参数,供后续内容生成时调取使用。即训练数据的存储及分析处理,均发生在本地服务器中,并非发生在互联网上。因此涉案纠纷不属于在互联网上发生的侵权纠纷,按规定不应由北京互联网法院管辖。

但法院认为,被诉侵权行为不可避免地发生在互联网上。无论购买第三方数据库或是公开爬取数据,均需通过互联网渠道先行获取涉案美术作品。具体到本案,原告主张权利的绘画作品也是通过互联网渠道发布。同时,涉案“Trik AI”生成的被诉侵权内容发布于上述某社交平台,该行为亦在互联网上。

法院据此表示,涉案侵权行为属于发生在互联网上的侵权行为,而作为被告之一的伊普西龙信息科技(北京)有限公司住所地在北京,因此按现行规定,北京互联网法院拥有管辖权。

涉嫌何种侵权?

据南都获取的原告3月提交的补充起诉状,原告将被诉侵权行为进行了拆分,包括采集以及存储原告作品、将原告作品作为训练AI模型的语料、提供能够生成侵权图片的AI模型服务三种行为。

从上述三种行为出发,原告提出三项侵权指控:

首先,被告未经原告授权,采集原告作品并存储,侵犯了原告享有的复制权,因为存储则意味着涉及对原告作品的复制;

其次,被告将原告作品作为训练语料输入AI模型的行为,侵犯了原告所享有的将作品用于AI模型训练并获取报酬的权利。该项权利应属于著作权法规定的“应当由著作权人享有的其他权利”;

再次,被诉AI模型能够在任何用户非针对性、非恶意的使用下,生成与原告作品实质性相似或者与原告作品视觉效果等雷同的图片,挤压了原告依托其作品获得收益的空间。当生成图片与原告作品构成实质性相似时,被告侵犯了原告的复制权、信息网络传播权;当生成图片在保留原告作品元素之外形成了新的表达时,则侵犯了原告的改编权;除此之外,在上述过程中被告亦没有标明原告作者信息,侵犯了原告的署名权。

原告据此主张,被告应当从被诉AI模型中剔除原告作品,或者采取其他同等效果的技术手段。理由在于,被告停止侵权在技术上具有可行性,不需要重新训练模型,停止侵权行为不至于对被告形成过重负担。原告还要求被告赔偿损失,并赔礼道歉。

据北京互联网法院公众号的庭审介绍信息,两家伊普西龙公司辩称,原告诉讼请求不明确;原告主张权利的作品与涉案AI生成图片不存在实质性相似;被告大模型训练行为即使使用原告作品,亦应构成合理使用;被告尽到了提示义务。因此,被告行为不构成侵权。

另一被告平台公司A,则强调没有向两家伊普西龙公司提供涉案的美术作品进行训练,也没有实施涉案争议行为,不应承担任何法律责任。据南都记者了解,3月21日的庭前会议中,三家被告公司曾表示“相互之间没有签署合作合同”。

原告之一的画师“青团子”告诉南都记者,据代理律师庭审后给予的情况反馈,平台公司A方面的答辩理由是没有参与涉案大模型的研发,两家伊普西龙公司则当庭承认使用了其中两位画师的作品进行训练。

庭审上,南加州大学计算机学在读博士研究生梁楚盟作为技术辅助人员出庭,就AI大模型训练过程向法官予以说明。

梁楚盟向南都记者介绍,AI大模型数据训练分为三个阶段:第一步是训练数据的收集和获取,并存储到特定数据库;第二步则对获取的数据进行预处理,使其符合训练模型的需要;第三步再将预处理后的图片压缩成数学表示,之后对数学表示进行部分遮掩,进而要求模型基于被遮掩的数学表示去预测完整的内容,使得大模型习得生成数学表示的能力。由于数学表示和图片之间存在一一对应关系,模型也就获得生成图片的能力。

合理使用存疑

2023年12月底,美国《纽约时报》提起诉讼,控告微软和OpenAI未经许可使用训练语料。而微软和OpenAI反驳称,使用公开可用的互联网材料训练AI模型属于合理使用。类似的大模型版权侵权诉讼在海外已上演多起,但迄今没有明确的裁判规则。

是否构成《著作权法》上的合理使用,同样成为“Trik AI”案认定侵权与否的前提判断之一。《著作权法》上规定了多种合理使用作品的情形,不过并未规定将作品用于大模型语料训练是否能落入合理使用范畴,法学界和产业界为此争议不断。

本案被告方在答辩意见中主张构成合理使用,但南都记者未能联系上两家伊普西龙公司详细了解其论证思路。

原告则提出,“合理使用”应当仅仅限制在不会对原作品市场和价值形成实质性损害的范围内。被诉侵权行为不仅削弱了原告已有作品的市场价值,严重挤占原告作品的潜在市场,甚至将直接导致原告从已有和未来作品中获取收益的能力大大降低。“这种对于原告这样以艺术创作为生的作者而言是致命打击的行为,完全不构成合理使用的情形。”

原告表示,即便是在法律边界可能尚不清晰、相关具体规则有待厘清的情况下,仅基于现有的法律体系,像被告这样的新技术开发者、使用者,就已经能够预判和评估其行为可能对他人合法权益造成的影响。被告在享受技术红利的同时,也应遵循法律规定,主动、审慎地在推动技术创新和保护他人权利之间寻求平衡。

南都记者注意到,中国的法学学者正利用《人工智能法》的制定契机,给出学界对数据合理使用规则的设计。

3月中旬,由中国政法大学数据法治研究院教授张凌寒领衔草拟的《人工智能法(学者建议稿)》提到,人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用。人工智能开发者可以不经数据权利人许可,不向其支付报酬,但是应当以显著的方式标注数据来源。

“青团子”此前在微博上表示,在决定维权时,几位画师就约定好了不接受任何调解,一定要让案件结果白纸黑字留在判决书上。“如果赢了,以后行业也有个维权案例,对所有原创作者都有利;如果输了,我们起码知道了国内对AI的态度和标准。”

采写:南都见习记者 杨柳