你刚用某款AI工具查资料,它吐出来一段和你手边教材几乎一样的内容。不是巧合,是训练数据里真的塞了整本盗版书。

Meta现在被Macmillan、McGraw-Hill、Elsevier、Hachette、Cengage五大出版商,外加畅销书作家Scott Turow集体起诉。诉状里的措辞很狠——"史上最大规模的版权侵权之一"。

打开网易新闻 查看精彩图片

这场官司到底在吵什么

核心指控就一条:Meta训练Llama模型时,明知故犯地从盗版网站扒了海量书籍和期刊。

原告列出的"货源"很具体:LibGen、Anna's Archive、Sci-Hub、Sci-Mag,全是业内知名的盗版资源站。诉状还说Meta用了Common Crawl数据集,而这个数据集"充斥着未经授权的版权作品"。

最扎眼的证据是实测案例。原告用Cengage的畅销教材《Calculus: Early Transcendentals》第9版做了测试——只给Llama输入开头两句话,模型就开始逐字逐句续写后面的章节内容。

这不是"风格相似",是复制粘贴级别的输出。

Meta内部早就知道自己在用什么

这事之所以棘手,是因为有内部记录。

之前已有作者单独起诉Meta,诉讼过程中曝光了公司内部讨论:员工们在商量怎么应对"媒体报道暗示我们使用了明知是盗版的数据集"。

去年联邦法院在一个相关案件中判了Meta胜诉,但法官特意补了一句:这个判决"不代表Meta用版权材料训练语言模型就是合法的"。

话留得很活,给后面的官司留了口子。

出版商为什么现在集体出手

单打独斗和组团诉讼,策略差别很大。

之前多是个人作者起诉,赔偿金额有限,举证也困难。这次五大出版商+畅销书作家联手,覆盖的版权作品量级完全不同——从大学教材到大众畅销书,从学术期刊到专业参考书。

原告诉求很明确:要损害赔偿。具体数字没公开,但参考Anthropic的和解案例,规模不会小。

Anthropic去年被作者集体起诉后,同意支付15亿美元和解。那个案子里,联邦法官认定"用合法购买的书训练AI算合理使用",但允许作者继续起诉Anthropic"盗版了数百万部作品"的部分。

Meta这次的麻烦在于,诉状指控的不是"买了书来训练",是"直接从盗版网站下载"。

AI公司的数据困境:没有干净的选择

这事暴露了一个行业潜规则:大语言模型的训练数据,来源基本没法细究。

Common Crawl是公开数据集,谁都能用。但里面混了多少未经授权的内容?没人能完全说清楚。出版商现在咬定Meta"明知"数据集有问题还照用,是在打主观故意这张牌。

更麻烦的是输出层面的证据。如果模型能逐字复述特定书籍的段落,很难辩称这是"学习后的原创表达"。

原告在诉状里强调的正是这点:Llama输出的不是"类似风格的内容",是"逐字和近乎逐字的替代物"。

这对行业意味着什么

几个连锁反应已经在路上。

第一,数据合规成本暴涨。如果法院认定盗版数据训练需要赔偿,所有用大模型公司都要重新审计自己的训练集。Common Crawl这种"拿来即用"的数据源,风险评级会大幅上调。

第二,输出过滤机制要升级。现在的问题不只是"用了什么训练",是"模型会不会把学进去的原封不动吐出来"。出版社的测试方法——给特定开头看续写结果——可能会成为标准取证手段。

第三,授权谈判筹码变了。出版商手里握着诉讼威胁,和AI公司谈内容授权时的要价能力完全不同。未来可能出现"训练数据授权"的细分收费模式,按模型规模、使用场景分层定价。

Meta的辩护空间还有多大

从已有判例看,Meta手里还有几张牌。

"合理使用"是核心防线。美国版权法对合理使用的判断有四要素:使用目的、作品性质、使用比例、市场影响。AI公司通常强调"转换性使用"——模型学习的是统计模式,不是复制表达。

但出版商的反击也很直接:输出能逐字复述,转换性在哪?

另一个变量是"明知"的认定。如果内部邮件能证明Meta员工确实讨论过数据集的盗版属性,主观过错的举证就成立了。这会直接影响赔偿倍数——版权侵权的法定赔偿,故意侵权和过失侵权差距很大。

去年那个判Meta胜诉的法官,特意在判决里留了后门。这次集体诉讼的原告显然读到了这句话,并且决定押注下一局。

数据收束

15亿美元——这是Anthropic为类似诉讼支付的和解金额。Meta面对的原告名单更长,涉及的版权作品覆盖教育出版、学术期刊、大众文学三大板块。如果法院认定"明知使用盗版数据"成立,这个数字会是重要的参照锚点。