AI公司销毁数百万书籍训练模型引争议-硬盘数据文件销毁|硬盘|训练模型

AI 大模型的训练离不开海量高质量文本数据，而书籍作为结构化的深度内容载体，正是这类数据的核心来源之一 —— 但版权问题始终是行业绕不开的痛点。最近，美国 AI 公司 Anthropic 在法庭文件中披露了一项名为 “巴拿马项目” 的计划：通过第三方渠道购入海量实体书籍，经高精度扫描提取完整文本内容后，不仅会统一销毁全部实体书籍载体，还会对存储原始扫描副本的设备执行专业的硬盘数据文件销毁，全程仅留存经标准化处理的训练用文本片段，这套试图 “去痕迹化” 的特殊操作随即引发行业广泛争议。Anthropic 成立于 2021 年，由前 OpenAI 员工达里奥・阿莫迪等人创办，2023 年估值约 150 亿美元，核心产品是 Claude 系列大模型。

巴拿马项目的核心流程形成了 “采购 — 数字化提取 — 载体数据销毁” 的完整链路：通过第三方供应商从书店、批发商处购入数百万本实体书，覆盖小说、学术著作、专业教材等多个类别；之后用光学字符识别（OCR）技术进行高精度扫描 —— 准确率超过 99.5%，提取的结构化文本全部用于 Claude 模型训练；数字化工作完成后，所有采购的实体书籍便被统一进行数据销毁，全程未留存原始实体副本。这些细节是 2024 年上半年通过版权诉讼的法庭文件曝光的，文件显示该项目至少从 2022 年启动，一直持续到 2023 年底，主要在美国境内开展，扫描工作由合作技术服务商负责，书籍采购则覆盖了多个州的渠道。

Anthropic 的内部文件指出，公开网络上的文本数据质量良莠不齐，且版权风险较高；相比之下，书籍内容的权威性和结构化程度更高，能有效提升模型的推理能力和知识准确性。但直接获取版权授权不仅成本高昂，流程也十分复杂，因此他们才选择了这种 “先复制内容、再销毁载体” 的曲线方案，试图通过实体书的数据销毁弱化复制行为的版权属性，打合规擦边球。不过，这种做法大概率涉嫌违反美国《版权法》—— 版权保护的核心是作品的复制权与传播权，即便完成了实体载体的数据销毁，未经授权制作受版权保护作品的数字化副本这一行为本身，已然构成侵权事实。麦肯锡 2024 年发布的《AI 数据伦理报告》显示，68% 的 AI 企业存在数据来源不透明的问题，32% 则涉及潜在的版权风险。

相比之下，其竞争对手的做法要合规得多：OpenAI 在 2023 年与企鹅兰登书屋、哈珀柯林斯等出版社达成了版权合作，从源头获得合法授权；Google DeepMind 则在 2024 年 3 月发布《训练数据透明度白皮书》，详细列出了数据来源及授权情况。Anthropic 这种寄望于载体数据销毁来规避版权责任的激进操作，未来恐怕会面临更多法律诉讼的风险。

行业层面，欧盟 AI 法案已于 2024 年 5 月正式生效，要求 AI 开发者披露训练数据的来源及版权状态，违规者最高将面临全球营业额 4% 的罚款。而在竞争对手这边，Meta 在 2024 年 6 月推出了 “开放数据联盟”，联合出版社和学术机构搭建合法的训练数据共享平台，试图从根本上解决行业的数据来源难题。