大英百科把OpenAI告了：2.5亿词条被"背下来"算侵权吗|openai|侵权|大英百科|版权法|词条

一家246岁的出版社，突然发现自己成了AI的"人形U盘"——内容被完整复制，流量被直接截走，连署名都省了。这不是科幻设定，是大英百科全书（Encyclopedia Britannica）和韦氏词典（Merriam-Webster）上周五对OpenAI提起的诉讼。

起诉书里的措辞很直白：GPT-4"背下来"了大量版权内容，用户一提问，它就输出"几乎逐字复制"的段落。大英百科还贴出了对比图——左边是自家网站的原文，右边是ChatGPT的回答，肉眼几乎找不出差别。

正方：这就是赤裸裸的盗版流水线

大英百科的律师团队算了一笔账。他们运营了246年，2.5亿个词条全靠人工编纂，每年维护成本高昂。OpenAI没花一分钱，把内容喂给模型训练，最后生成的回答直接替代了原网站的功能。用户问"什么是光合作用"，ChatGPT甩出一段大英百科的原文，谁还会点进britannica.com？

起诉书里的「cannibalizing」（蚕食）一词用得精准。传统搜索引擎至少给源网站导流，AI问答直接把答案嚼碎了喂给用户。大英百科声称，这种模式让他们的网络流量被"直接竞争"的内容掏空，商业模式遭到系统性破坏。

更致命的是"记忆"证据。大英百科在诉状中展示：特定提示词下，GPT-4会输出与原文"高度相似"的长段落，有些匹配度接近逐字复制。他们认为，这不是"学习"后的"原创表达"，而是训练数据里的侵权副本被原样调取。

版权法专家对此有明确立场。纽约大学法学教授Jason Schultz指出，如果AI模型能复现受版权保护的长文本，"这就不是合理使用，是未经授权的复制"。类似逻辑也出现在《纽约时报》诉OpenAI案中——那家媒体同样抓到了模型输出与报道原文几乎一致的证据。

数据支持这种担忧。2023年9月，AI公司Anthropic因用版权书籍训练模型，被迫支付15亿美元（约108亿人民币）与作者达成和解。这是目前版权诉讼中金额最高的和解案之一，给出版业打了一剂强心针。

反方：AI"记住"内容，和人类背单词是一回事

OpenAI的辩护策略不难预测。他们的核心论点一直是：大语言模型的训练属于"合理使用"（fair use），就像人类阅读书籍后吸收知识，再用自己的话表达。模型并非存储原文副本，而是学习语言模式和事实关系。

技术层面确实有支撑。现代神经网络并不以传统数据库方式"存储"文本，而是通过数十亿参数压缩统计规律。当模型输出与大英百科相似的内容，可能是对公共领域知识的独立重组，而非直接复制训练数据。

OpenAI此前在类似诉讼中的回应很有代表性。他们曾声称，《纽约时报》抓到的"抄袭"案例是"提示词工程"的产物——原告用特殊手段诱导模型复现原文，普通用户不会遇到。言下之意，这是钓鱼取证，不是真实使用场景。

更宏观的辩词关乎创新。AI公司警告，如果训练数据需逐一获得授权，生成式AI的开发成本将飙升至不可持续。想象一个律师团队审阅2.5亿个词条的授权协议，或者为互联网上每一张图片联系摄影师——技术迭代会陷入泥潭。

部分法律学者站在这一边。斯坦福大学互联网中心研究员Daphne Keller认为，要求AI公司"遗忘"特定训练数据，在技术上近乎不可能。"这就像要求一个人读完书后，通过手术摘除特定记忆。"

我的判断：战场不在法庭，在"相似度"的灰度地带

这场诉讼的真正焦点，是一个没有标准答案的问题：AI输出与原作的相似度，达到什么程度才算侵权？

大英百科抓到的"逐字复制"案例，对OpenAI确实不利。但关键变量在于规模和意图。如果模型在极少数极端提示下复现长文本，法院可能倾向技术中立；如果系统性地、可预测地替代原作品功能，版权方的胜算就大幅上升。

更值得玩味的是商业层面的"截流"指控。大英百科的核心焦虑不是"被抄袭"，而是"被替代"——AI问答直接回答了用户的问题，消灭了点击百科网站的必要。这种商业模式的颠覆，版权法能否救济？现行法律没有现成答案。

对比同类案件能看出趋势。《纽约时报》诉讼仍在进行中，Anthropic的15亿美元和解则暗示：当证据确凿时，AI公司愿意花钱消灾。大英百科的诉状明显借鉴了这些先例，他们的对比截图策略和《纽约时报》如出一辙。

一个细节暴露了大英百科的紧迫感。他们的网站仍在运营，但流量压力真实存在。SimilarWeb数据显示，2023年以来传统百科网站的访问量持续下滑，年轻用户更习惯直接向AI提问。这场诉讼既是维权，也是一场关于生存权的宣言。

对科技从业者而言，此案的价值在于厘清边界。如果你的产品依赖大模型，需要评估训练数据来源的合规风险；如果你是内容创作者，这则案例展示了取证和诉讼的具体路径。大英百科贴出的"原文vs.AI输出"对比图，很可能成为未来版权诉讼的标准动作。

OpenAI尚未对诉讼公开回应。但考虑到他们正在推进新一轮融资，估值冲击1500亿美元，法律纠纷的走向会影响投资者信心。大英百科选择的时机，本身也是一种策略。

246岁的出版社和8岁的AI公司对峙，本质上是两种知识组织方式的碰撞。一方相信权威编纂和付费墙，另一方押注算法压缩和即时生成。法庭的判决不会终结这种张力，但会给下一阶段的博弈划定临时边界。

大英百科的编辑们或许正在监控一个数据：诉讼提起后，有多少用户搜索"Britannica vs OpenAI lawsuit"，然后被AI直接总结了案情——连争议本身，都成了AI的训练饲料。

大英百科把OpenAI告了：2.5亿词条被"背下来"算侵权吗

正方：这就是赤裸裸的盗版流水线

反方：AI"记住"内容，和人类背单词是一回事

我的判断：战场不在法庭，在"相似度"的灰度地带

热搜

热门跟贴

正方：这就是赤裸裸的盗版流水线

反方：AI"记住"内容，和人类背单词是一回事

我的判断：战场不在法庭，在"相似度"的灰度地带

热搜

热门跟贴

相关推荐

微软被曝考虑收购大模型创企，SpaceX也看上了同一家

武汉蒜鸟告了“蒜鸟”，谨防走红即被侵权！武汉为中小文创企业筑牢知识产权防线

从盗衣事件看校园隐秘侵权的边界

理发店起名“东尼”，被英国一家公司起诉侵权还要索赔，店家质疑

CerebrasIPO：深度绑定OpenAI，以“Fast Tokens”重塑AI芯片市场预期

山西举行“强化知识产权全链条保护 助力高质量发展”记者见面会

Codex免费两个月！AI编程工具价格战开打，山姆·奥特曼下场抢人

多地村镇理发店被起诉商标侵权 “标榜”“东尼”商标使用权为何到了一家英国公司之手｜红星调查

九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

涉发明专利侵权纠纷！多家知名美妆公司被起诉，企业回应

吴宣仪成立个人工作室

法国新法落地：归还 “260万被抢文物”有多艰难？｜重建现场

俄总统新闻秘书：只要美国不再把经贸合作与乌克兰问题挂钩，俄愿同美开展商业往来

收藏！中央网信办发布网络举报、辟谣、侵权举报指南

这地图比我还熟悉我自己

爱思唯尔把Meta告了：拿Sci-Hub盗版论文训练大模型

CEO刚说完不打折，《无主之地4》转头就新史低

古巴宣布燃油储备耗尽 全国电网进入"危急状态"

“小马云”范小勤成年后直播首秀，在线人数突破7万，礼物刷屏

独家专访｜蔡斌：排球人生路，问心无愧

山西举行“强化知识产权全链条保护助力高质量发展”记者见面会

古巴宣布燃油储备耗尽全国电网进入"危急状态"