Meta被五大出版商起诉：AI训练数据的黑箱终于被告上法庭

Ping值焦虑

2026-05-06 01:02 ·北京

你刚用某款AI工具查资料，它吐出来一段和你手边教材几乎一样的内容。不是巧合，是训练数据里真的塞了整本盗版书。

Meta现在被Macmillan、McGraw-Hill、Elsevier、Hachette、Cengage五大出版商，外加畅销书作家Scott Turow集体起诉。诉状里的措辞很狠——"史上最大规模的版权侵权之一"。

这场官司到底在吵什么

核心指控就一条：Meta训练Llama模型时，明知故犯地从盗版网站扒了海量书籍和期刊。

原告列出的"货源"很具体：LibGen、Anna's Archive、Sci-Hub、Sci-Mag，全是业内知名的盗版资源站。诉状还说Meta用了Common Crawl数据集，而这个数据集"充斥着未经授权的版权作品"。

最扎眼的证据是实测案例。原告用Cengage的畅销教材《Calculus: Early Transcendentals》第9版做了测试——只给Llama输入开头两句话，模型就开始逐字逐句续写后面的章节内容。

这不是"风格相似"，是复制粘贴级别的输出。

Meta内部早就知道自己在用什么

这事之所以棘手，是因为有内部记录。

之前已有作者单独起诉Meta，诉讼过程中曝光了公司内部讨论：员工们在商量怎么应对"媒体报道暗示我们使用了明知是盗版的数据集"。

去年联邦法院在一个相关案件中判了Meta胜诉，但法官特意补了一句：这个判决"不代表Meta用版权材料训练语言模型就是合法的"。

话留得很活，给后面的官司留了口子。

出版商为什么现在集体出手

单打独斗和组团诉讼，策略差别很大。

之前多是个人作者起诉，赔偿金额有限，举证也困难。这次五大出版商+畅销书作家联手，覆盖的版权作品量级完全不同——从大学教材到大众畅销书，从学术期刊到专业参考书。

原告诉求很明确：要损害赔偿。具体数字没公开，但参考Anthropic的和解案例，规模不会小。

Anthropic去年被作者集体起诉后，同意支付15亿美元和解。那个案子里，联邦法官认定"用合法购买的书训练AI算合理使用"，但允许作者继续起诉Anthropic"盗版了数百万部作品"的部分。

Meta这次的麻烦在于，诉状指控的不是"买了书来训练"，是"直接从盗版网站下载"。

AI公司的数据困境：没有干净的选择

这事暴露了一个行业潜规则：大语言模型的训练数据，来源基本没法细究。

Common Crawl是公开数据集，谁都能用。但里面混了多少未经授权的内容？没人能完全说清楚。出版商现在咬定Meta"明知"数据集有问题还照用，是在打主观故意这张牌。

更麻烦的是输出层面的证据。如果模型能逐字复述特定书籍的段落，很难辩称这是"学习后的原创表达"。

原告在诉状里强调的正是这点：Llama输出的不是"类似风格的内容"，是"逐字和近乎逐字的替代物"。

这对行业意味着什么

几个连锁反应已经在路上。

第一，数据合规成本暴涨。如果法院认定盗版数据训练需要赔偿，所有用大模型公司都要重新审计自己的训练集。Common Crawl这种"拿来即用"的数据源，风险评级会大幅上调。

第二，输出过滤机制要升级。现在的问题不只是"用了什么训练"，是"模型会不会把学进去的原封不动吐出来"。出版社的测试方法——给特定开头看续写结果——可能会成为标准取证手段。

第三，授权谈判筹码变了。出版商手里握着诉讼威胁，和AI公司谈内容授权时的要价能力完全不同。未来可能出现"训练数据授权"的细分收费模式，按模型规模、使用场景分层定价。

Meta的辩护空间还有多大

从已有判例看，Meta手里还有几张牌。

"合理使用"是核心防线。美国版权法对合理使用的判断有四要素：使用目的、作品性质、使用比例、市场影响。AI公司通常强调"转换性使用"——模型学习的是统计模式，不是复制表达。

但出版商的反击也很直接：输出能逐字复述，转换性在哪？

另一个变量是"明知"的认定。如果内部邮件能证明Meta员工确实讨论过数据集的盗版属性，主观过错的举证就成立了。这会直接影响赔偿倍数——版权侵权的法定赔偿，故意侵权和过失侵权差距很大。

去年那个判Meta胜诉的法官，特意在判决里留了后门。这次集体诉讼的原告显然读到了这句话，并且决定押注下一局。

数据收束

15亿美元——这是Anthropic为类似诉讼支付的和解金额。Meta面对的原告名单更长，涉及的版权作品覆盖教育出版、学术期刊、大众文学三大板块。如果法院认定"明知使用盗版数据"成立，这个数字会是重要的参照锚点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴