一个X平台上的帖子最近引发热议。用户Sivori声称,Anthropic正在大量购买实体书籍,扫描提取数据后立即销毁纸质原件,原因是"这样获得的训练数据更安全"。他还提到,这让他想起20年前读过的Vernor Vinge科幻小说《The Rainbow's End》里的情节。

帖子迅速发酵,小红书上有人跟风传播,说法越来越夸张——什么"A公司把人类知识库连锅端了""文化全部没了"。这事听着确实像科幻片,但查完几份法律文件后,我发现现实比网络传言复杂得多。

打开网易新闻 查看精彩图片

首先,"巴拿马项目"确实存在

2026年初,一份法庭文件披露了Anthropic内部代号"Project Panama"的计划。文件翻译过来就叫"巴拿马项目",目标简单粗暴:获取全球所有书籍。2024年2月,Anthropic挖来了曾负责Google Books项目的Tom Turvey,交给他一个公开任务——获取"全球所有书籍"。

执行层面,公司投入大量资金,从Strand等实体书店大规模采购纸质书。然后运到仓库,用破坏性高速扫描仪转成PDF,纸质残骸送往数据中心处理。

为什么要这么干?法律考量

Anthropic的法律团队援引"首次销售原则":你买了实体书,就拥有对该副本做任何事的权利,包括销毁。加上"合理使用"的模糊地带,销毁后公司只保留内部使用的数字文件,不对外分发,综合评估后认定这种使用方式合法。

法律文件整体认为,这类模式具有较强的fair use辩护空间。相比直接抓取网站数据,法律风险确实更可控。

但Anthropic并非没干过危险的事。巴拿马项目之所以被曝光,正是因为Anthropic此前被出版商起诉——他们从LibGen这个盗版电子书网站下载了大量书籍用于训练。CEO Dario Amodei内部许可邮件的标题就叫"法律/实践/声誉的麻烦",说明当时明知风险。后来觉得风险太大,才转头采用实体书破坏性扫描这条路径。

2025年,多家媒体披露Anthropic推进了这项规模约15亿美元的和解方案,应对盗版数据训练的集体诉讼。注意,这15亿主要针对那笔旧账,不是巴拿马项目本身的购书费用。这在AI行业仍被视为金额最高的和解案之一。

法庭对"合法购买后销毁训练"这个模式整体态度积极,如果Anthropic一开始就走这条路,fair use辩护会更强。但干过盗版再转正的做法,至少在法律舆论上已经让自己被动了。当然话说回来,AI训练的fair use在美国整体仍无定论,Meta、OpenAI的案子都还在打,这个领域还没到一锤定音的时候。

科幻小说预言的不是一回事

这确实是最魔幻的部分。

Vernor Vinge在2006年的小说《The Rainbow's End》里,确实写过一个叫"Librareome Project"的设定:用破坏性扫描的方式数字化图书馆,然后销毁纸质书籍。2026年,Anthropic在现实中做了高度相似的事。

但科幻作家不是在预言未来,他只是写了一个听起来极端的故事。谁知道二十年后AI公司真干了,还被当成好主意。

被夸大的部分需要澄清

网上流传的一些说法,确实需要纠偏。

第一,不是"文化灭绝"。Anthropic采购的主要是流通量大的二手普通书籍,从大书店和批发商进货,不是珍本、善本,也不是什么具有收藏价值的东西。真正抗议的主要是作家和出版社,因为他们主张版权被侵犯,而不是文物保护者——被销毁的只是工业印刷品,不是不可替代的历史文献。

第二,没有"把人类大部分知识库连锅端"那么夸张。他们买了很多书没错,但人类历史上出版的书籍数以千亿计,几本书在这个量级面前只是很小一部分。更准确的说法是,他们获取了一部分高质量文本用于训练,不是把人类知识连锅端了。

第三,方法虽然粗暴,但法律路径其实清晰。Anthropic的联合创始人早在2023年就公开说过,用书籍训练模型能让AI学会"如何写得更好",而不是去模仿特定风格。