五家出版巨头联手上阵,把马克·扎克伯格本人列为被告。这场官司的核心争议很直接:用来训练大语言模型的海量书籍,到底是"合理使用"还是"大规模盗版"?
谁告的,告什么
原告名单堪称出版业全明星:阿歇特、麦克米伦、麦格劳-希尔、爱思唯尔、圣智五大出版集团,外加畅销书作家斯科特·特罗。他们在集体诉讼中指控,Meta及其CEO扎克伯格"未经授权复制并分发了数百万部受版权保护的作品,未向作者或出版商提供任何补偿,且完全明知其行为违反版权法"。
诉状中有一句指向明确的指控:「扎克伯格本人亲自授权并积极鼓励了侵权行为。」
这不是Meta第一次因训练数据被告。2023年,另一批作者发起过版权侵权诉讼,但最终败诉。LibGen案中也出现过扎克伯格" reportedly encouraged use of copyrighted works"(据报道鼓励使用受版权保护作品)的说法。去年,英国一群作者也曾就Meta可能违反版权法发出警告。
Meta的防守:法院站我这边
Meta发言人戴夫·阿诺德在回应《纽约时报》时搬出了法院背书:「人工智能正在为个人和企业带来变革性创新、生产力和创造力,法院已正确认定,使用受版权保护的材料训练人工智能可构成合理使用。」
这句话的底气来自近期判例。在针对Anthropic的类似诉讼中,法官对版权侵权论点似乎不为所动,但提出了另一条路径——将 piracy(盗版)作为作者向AI公司索赔的替代方案。
这暗示了当前法律战的关键分野:版权侵权的"合理使用"抗辩 vs. 数据来源本身的非法性。
辩论核心:技术需要 vs. 权利边界
正方(Meta及AI公司)的逻辑链条:
大语言模型需要海量文本训练 → 受版权保护的作品是高质量语料的主要来源 → 法院已认可"合理使用"框架 → 技术创新收益大于个体权利损耗 → 行业惯例如此,改变规则将扼杀发展
反方(出版商与作者)的反击点:
训练数据规模达"数百万部" → 零补偿、零授权 → 高管"亲自授权"显示主观故意 → 2023年作者败诉不等于出版商败诉(原告主体不同,作品类型不同) → LibGen等盗版书库的使用涉嫌"明知故犯"
一个关键细节:诉状特别强调扎克伯格的"personal authorization"(个人授权)。这不是把责任推给某个技术团队,而是直指最高决策层。如果这一指控被采信,将动摇"公司行为 vs. 个人责任"的防火墙。
我的判断:这是一场关于"成本转嫁"的谈判
出版商选择此时集体起诉,时机精准。2023年作者败诉后,法律界对"AI训练=合理使用"的共识并未稳固——Anthropic案中法官对盗版路径的开放态度,留下了窗口。
更深层的博弈在于:AI公司的训练成本结构,是否必须包含版权采购?
目前大模型的竞争本质是数据军备竞赛。如果法院最终要求为每本训练书籍付费,行业成本结构将彻底重写。出版商要的或许不是胜诉判决,而是一个定价基准——就像音乐流媒体时代,唱片公司最终拿下的版权分成模式。
扎克伯格"亲自授权"的指控,无论真假,都暴露了一个行业默契:在"先训练、后谈判"的策略下,高管层对数据来源的灰色地带心知肚明。出版商此刻把这句话写进诉状,是在向陪审团和舆论同时喊话——这不是技术中立,这是商业决策。
案件走向将取决于两个法律技术问题:LibGen等盗版书库的使用能否被证明;以及"合理使用"的边界是否因"商业性AI平台"而收缩。在此之前,所有AI公司的训练数据审计报告,都值得重新阅读。
热门跟贴