AI 大模型的训练离不开海量高质量文本数据,而书籍作为结构化的深度内容载体,正是这类数据的核心来源之一 —— 但版权问题始终是行业绕不开的痛点。最近,美国 AI 公司 Anthropic 在法庭文件中披露了一项名为 “巴拿马项目” 的计划:通过第三方渠道购入海量实体书籍,经高精度扫描提取完整文本内容后,不仅会统一销毁全部实体书籍载体,还会对存储原始扫描副本的设备执行专业的硬盘数据文件销毁,全程仅留存经标准化处理的训练用文本片段,这套试图 “去痕迹化” 的特殊操作随即引发行业广泛争议。Anthropic 成立于 2021 年,由前 OpenAI 员工达里奥・阿莫迪等人创办,2023 年估值约 150 亿美元,核心产品是 Claude 系列大模型。
巴拿马项目的核心流程形成了 “采购 — 数字化提取 — 载体数据销毁” 的完整链路:通过第三方供应商从书店、批发商处购入数百万本实体书,覆盖小说、学术著作、专业教材等多个类别;之后用光学字符识别(OCR)技术进行高精度扫描 —— 准确率超过 99.5%,提取的结构化文本全部用于 Claude 模型训练;数字化工作完成后,所有采购的实体书籍便被统一进行数据销毁,全程未留存原始实体副本。这些细节是 2024 年上半年通过版权诉讼的法庭文件曝光的,文件显示该项目至少从 2022 年启动,一直持续到 2023 年底,主要在美国境内开展,扫描工作由合作技术服务商负责,书籍采购则覆盖了多个州的渠道。
Anthropic 的内部文件指出,公开网络上的文本数据质量良莠不齐,且版权风险较高;相比之下,书籍内容的权威性和结构化程度更高,能有效提升模型的推理能力和知识准确性。但直接获取版权授权不仅成本高昂,流程也十分复杂,因此他们才选择了这种 “先复制内容、再销毁载体” 的曲线方案,试图通过实体书的数据销毁弱化复制行为的版权属性,打合规擦边球。不过,这种做法大概率涉嫌违反美国《版权法》—— 版权保护的核心是作品的复制权与传播权,即便完成了实体载体的数据销毁,未经授权制作受版权保护作品的数字化副本这一行为本身,已然构成侵权事实。麦肯锡 2024 年发布的《AI 数据伦理报告》显示,68% 的 AI 企业存在数据来源不透明的问题,32% 则涉及潜在的版权风险。
相比之下,其竞争对手的做法要合规得多:OpenAI 在 2023 年与企鹅兰登书屋、哈珀柯林斯等出版社达成了版权合作,从源头获得合法授权;Google DeepMind 则在 2024 年 3 月发布《训练数据透明度白皮书》,详细列出了数据来源及授权情况。Anthropic 这种寄望于载体数据销毁来规避版权责任的激进操作,未来恐怕会面临更多法律诉讼的风险。
行业层面,欧盟 AI 法案已于 2024 年 5 月正式生效,要求 AI 开发者披露训练数据的来源及版权状态,违规者最高将面临全球营业额 4% 的罚款。而在竞争对手这边,Meta 在 2024 年 6 月推出了 “开放数据联盟”,联合出版社和学术机构搭建合法的训练数据共享平台,试图从根本上解决行业的数据来源难题。
热门跟贴