一家246岁的出版社,突然发现自己成了AI的"人形U盘"——内容被完整复制,流量被直接截走,连署名都省了。这不是科幻设定,是大英百科全书(Encyclopedia Britannica)和韦氏词典(Merriam-Webster)上周五对OpenAI提起的诉讼。
起诉书里的措辞很直白:GPT-4"背下来"了大量版权内容,用户一提问,它就输出"几乎逐字复制"的段落。大英百科还贴出了对比图——左边是自家网站的原文,右边是ChatGPT的回答,肉眼几乎找不出差别。
正方:这就是赤裸裸的盗版流水线
大英百科的律师团队算了一笔账。他们运营了246年,2.5亿个词条全靠人工编纂,每年维护成本高昂。OpenAI没花一分钱,把内容喂给模型训练,最后生成的回答直接替代了原网站的功能。用户问"什么是光合作用",ChatGPT甩出一段大英百科的原文,谁还会点进britannica.com?
起诉书里的「cannibalizing」(蚕食)一词用得精准。传统搜索引擎至少给源网站导流,AI问答直接把答案嚼碎了喂给用户。大英百科声称,这种模式让他们的网络流量被"直接竞争"的内容掏空,商业模式遭到系统性破坏。
更致命的是"记忆"证据。大英百科在诉状中展示:特定提示词下,GPT-4会输出与原文"高度相似"的长段落,有些匹配度接近逐字复制。他们认为,这不是"学习"后的"原创表达",而是训练数据里的侵权副本被原样调取。
版权法专家对此有明确立场。纽约大学法学教授Jason Schultz指出,如果AI模型能复现受版权保护的长文本,"这就不是合理使用,是未经授权的复制"。类似逻辑也出现在《纽约时报》诉OpenAI案中——那家媒体同样抓到了模型输出与报道原文几乎一致的证据。
数据支持这种担忧。2023年9月,AI公司Anthropic因用版权书籍训练模型,被迫支付15亿美元(约108亿人民币)与作者达成和解。这是目前版权诉讼中金额最高的和解案之一,给出版业打了一剂强心针。
反方:AI"记住"内容,和人类背单词是一回事
OpenAI的辩护策略不难预测。他们的核心论点一直是:大语言模型的训练属于"合理使用"(fair use),就像人类阅读书籍后吸收知识,再用自己的话表达。模型并非存储原文副本,而是学习语言模式和事实关系。
技术层面确实有支撑。现代神经网络并不以传统数据库方式"存储"文本,而是通过数十亿参数压缩统计规律。当模型输出与大英百科相似的内容,可能是对公共领域知识的独立重组,而非直接复制训练数据。
OpenAI此前在类似诉讼中的回应很有代表性。他们曾声称,《纽约时报》抓到的"抄袭"案例是"提示词工程"的产物——原告用特殊手段诱导模型复现原文,普通用户不会遇到。言下之意,这是钓鱼取证,不是真实使用场景。
更宏观的辩词关乎创新。AI公司警告,如果训练数据需逐一获得授权,生成式AI的开发成本将飙升至不可持续。想象一个律师团队审阅2.5亿个词条的授权协议,或者为互联网上每一张图片联系摄影师——技术迭代会陷入泥潭。
部分法律学者站在这一边。斯坦福大学互联网中心研究员Daphne Keller认为,要求AI公司"遗忘"特定训练数据,在技术上近乎不可能。"这就像要求一个人读完书后,通过手术摘除特定记忆。"
我的判断:战场不在法庭,在"相似度"的灰度地带
这场诉讼的真正焦点,是一个没有标准答案的问题:AI输出与原作的相似度,达到什么程度才算侵权?
大英百科抓到的"逐字复制"案例,对OpenAI确实不利。但关键变量在于规模和意图。如果模型在极少数极端提示下复现长文本,法院可能倾向技术中立;如果系统性地、可预测地替代原作品功能,版权方的胜算就大幅上升。
更值得玩味的是商业层面的"截流"指控。大英百科的核心焦虑不是"被抄袭",而是"被替代"——AI问答直接回答了用户的问题,消灭了点击百科网站的必要。这种商业模式的颠覆,版权法能否救济?现行法律没有现成答案。
对比同类案件能看出趋势。《纽约时报》诉讼仍在进行中,Anthropic的15亿美元和解则暗示:当证据确凿时,AI公司愿意花钱消灾。大英百科的诉状明显借鉴了这些先例,他们的对比截图策略和《纽约时报》如出一辙。
一个细节暴露了大英百科的紧迫感。他们的网站仍在运营,但流量压力真实存在。SimilarWeb数据显示,2023年以来传统百科网站的访问量持续下滑,年轻用户更习惯直接向AI提问。这场诉讼既是维权,也是一场关于生存权的宣言。
对科技从业者而言,此案的价值在于厘清边界。如果你的产品依赖大模型,需要评估训练数据来源的合规风险;如果你是内容创作者,这则案例展示了取证和诉讼的具体路径。大英百科贴出的"原文vs.AI输出"对比图,很可能成为未来版权诉讼的标准动作。
OpenAI尚未对诉讼公开回应。但考虑到他们正在推进新一轮融资,估值冲击1500亿美元,法律纠纷的走向会影响投资者信心。大英百科选择的时机,本身也是一种策略。
246岁的出版社和8岁的AI公司对峙,本质上是两种知识组织方式的碰撞。一方相信权威编纂和付费墙,另一方押注算法压缩和即时生成。法庭的判决不会终结这种张力,但会给下一阶段的博弈划定临时边界。
大英百科的编辑们或许正在监控一个数据:诉讼提起后,有多少用户搜索"Britannica vs OpenAI lawsuit",然后被AI直接总结了案情——连争议本身,都成了AI的训练饲料。
热门跟贴