扎克伯格被出版商集体起诉：训练大模型用了谁的版权书？|侵权|出版商|戴夫|扎克伯格|斯科特|版权

五家出版巨头联手上阵，把马克·扎克伯格本人列为被告。这场官司的核心争议很直接：用来训练大语言模型的海量书籍，到底是"合理使用"还是"大规模盗版"？

谁告的，告什么

原告名单堪称出版业全明星：阿歇特、麦克米伦、麦格劳-希尔、爱思唯尔、圣智五大出版集团，外加畅销书作家斯科特·特罗。他们在集体诉讼中指控，Meta及其CEO扎克伯格"未经授权复制并分发了数百万部受版权保护的作品，未向作者或出版商提供任何补偿，且完全明知其行为违反版权法"。

诉状中有一句指向明确的指控：「扎克伯格本人亲自授权并积极鼓励了侵权行为。」

这不是Meta第一次因训练数据被告。2023年，另一批作者发起过版权侵权诉讼，但最终败诉。LibGen案中也出现过扎克伯格" reportedly encouraged use of copyrighted works"（据报道鼓励使用受版权保护作品）的说法。去年，英国一群作者也曾就Meta可能违反版权法发出警告。

Meta的防守：法院站我这边

Meta发言人戴夫·阿诺德在回应《纽约时报》时搬出了法院背书：「人工智能正在为个人和企业带来变革性创新、生产力和创造力，法院已正确认定，使用受版权保护的材料训练人工智能可构成合理使用。」

这句话的底气来自近期判例。在针对Anthropic的类似诉讼中，法官对版权侵权论点似乎不为所动，但提出了另一条路径——将 piracy（盗版）作为作者向AI公司索赔的替代方案。

这暗示了当前法律战的关键分野：版权侵权的"合理使用"抗辩 vs. 数据来源本身的非法性。

辩论核心：技术需要 vs. 权利边界

正方（Meta及AI公司）的逻辑链条：

大语言模型需要海量文本训练 → 受版权保护的作品是高质量语料的主要来源 → 法院已认可"合理使用"框架 → 技术创新收益大于个体权利损耗 → 行业惯例如此，改变规则将扼杀发展

反方（出版商与作者）的反击点：

训练数据规模达"数百万部" → 零补偿、零授权 → 高管"亲自授权"显示主观故意 → 2023年作者败诉不等于出版商败诉（原告主体不同，作品类型不同） → LibGen等盗版书库的使用涉嫌"明知故犯"

一个关键细节：诉状特别强调扎克伯格的"personal authorization"（个人授权）。这不是把责任推给某个技术团队，而是直指最高决策层。如果这一指控被采信，将动摇"公司行为 vs. 个人责任"的防火墙。

我的判断：这是一场关于"成本转嫁"的谈判

出版商选择此时集体起诉，时机精准。2023年作者败诉后，法律界对"AI训练=合理使用"的共识并未稳固——Anthropic案中法官对盗版路径的开放态度，留下了窗口。