23家媒体集体屏蔽网页存档：AI训练数据争夺战打响|官方文档|爬虫

当《纽约时报》开始阻止互联网档案馆抓取自家页面，这件事就不再只是技术摩擦——而是一场关于"谁有权使用历史"的规则重构。

事件时间线：从工具依赖到主动切割

2024年初，多家新闻机构的技术团队开始调整robots.txt文件。这个看似枯燥的操作，指向同一个目标：阻止ia-archiverbot（互联网档案馆的爬虫程序）访问网站内容。

据Wired披露，目前已有23家主流出版物实施屏蔽，包括USA Today、《纽约时报》等头部媒体。讽刺的是，其中部分机构在过往报道中频繁引用Wayback Machine的存档链接作为信源验证工具。

互联网档案馆运营近30年，存档了超过8660亿个网页快照，被视为数字时代的"公共图书馆"。其创始人Brewster Kahle的愿景很简单：防止链接失效导致的"数字黑暗时代"。

但2023年生成式AI爆发后，这个非营利项目的处境急剧恶化。媒体方的核心焦虑并非存档本身，而是存档内容被AI公司纳入训练数据集——在"合理使用"（fair use）的法律掩护下，无偿转化为商业价值。

法律灰色地带：合理使用还是数据掠夺？

美国版权法中的"合理使用"条款，原本为学术研究、新闻报道等场景提供弹性空间。其核心判断标准包括：使用目的、作品性质、使用比例、市场影响。

互联网档案馆的法律立场建立在索引服务属性上。电子前沿基金会（EFF）明确表态：「法院长期认可，构建可搜索索引往往需要复制底层材料。」该组织进一步强调，「这种复制服务于变革性目的：实现对创意作品的发现、研究和新洞察。」

但AI训练的场景正在挑战这一逻辑边界。

传统搜索引擎抓取网页后，仅建立索引指向原始位置，用户最终仍需访问出版方网站。而大语言模型的训练机制截然不同——它消化内容、内化模式、输出合成文本，原始链接的曝光价值被彻底剥离。

2023年底，《纽约时报》对OpenAI及微软提起版权诉讼，指控其"未经许可使用数百万篇文章训练模型"。诉讼文件披露，GPT-4在某些场景下几乎逐字复述《纽约时报》的付费内容。这桩索赔数十亿美元的案件，直接暴露了媒体与AI公司之间的利益裂痕。

屏蔽Wayback Machine，是媒体方在诉讼之外的防御性动作。其逻辑链条清晰：如果无法阻止AI公司抓取实时内容，至少切断历史存档这一潜在训练数据源。

技术对抗的连锁反应

媒体方的屏蔽策略并非无差别执行。据技术监测，部分机构仅阻止特定爬虫，保留搜索引擎的访问权限；另一些则设置更严格的robots.txt规则，甚至配合IP层面的访问限制。

但这种防御的有效性存疑。

互联网档案馆的抓取频率远低于商业AI爬虫。OpenAI、Anthropic等公司自有的大规模爬虫系统，早已具备绕过基础技术屏障的能力。更关键的是，历史存档的"副本"可能已通过多种渠道泄露——第三方数据中介、学术合作项目、甚至早期的公开数据集。

真正被削弱的，反而是公众利益。

当新闻网站改版、服务器迁移或域名失效，Wayback Machine往往是找回原始报道的唯一途径。2021年，ProPublica调查记者依赖该工具追踪已删除的政府文件；2022年，俄乌冲突初期，大量被删除的俄方宣传内容通过存档得以留存分析。

媒体屏蔽行为的悖论在于：它保护的是"可能被AI滥用的内容"，却同时摧毁了"已被公众需要的存档"。

商业逻辑重构：从流量到数据资产

这场冲突的深层动力，是新闻业商业模式的结构性焦虑。

过去二十年，出版方的核心资产是注意力——通过内容获取流量，再通过广告或订阅变现。AI模型的出现，将价值链向上游推移：内容本身成为训练原料，价值捕获环节从"被阅读"转向"被学习"。

媒体机构正在重新评估自身的数据定价权。News Corp、Axel Springer等集团已与OpenAI签订内容授权协议，金额从数千万到数亿美元不等。Axel Springer CEO Mathias Döpfner公开表态：「我们不希望内容被随意抓取用于训练，但愿意在公平条件下合作。」

这种"有条件开放"策略，与屏蔽Wayback Machine形成对照。前者瞄准明确的商业回报，后者则是对失控风险的应激反应。

更微妙的博弈在于法律先例的塑造。如果《纽约时报》诉讼胜诉，"合理使用"的边界将被重新划定，AI公司可能需要为训练数据支付系统性成本。反之，若法院支持现有解释，媒体方的议价能力将进一步削弱。

屏蔽存档的行为，某种程度上是在诉讼结果出炉前，单方面改变"数据可得性"的事实状态。

公共领域的收缩危机

技术史学者关注一个更长期的趋势：数字公共领域的渐进式封闭。

印刷时代，图书馆和报社档案室构成相对开放的历史记录体系。物理载体的稀缺性限制了大规模复制，但也确保了访问的稳定性。数字迁移初期，这种开放性被延续——互联网档案馆、Google News Archive等项目承诺了"无限存储、普遍访问"的技术乌托邦。

但2020年代的平台化逻辑正在逆转这一进程。

社交媒体的内容墙、新闻网站的付费墙、现在轮到存档墙——每一层屏障都基于合理的商业诉求，叠加效应却是公共知识基础设施的碎片化。当AI训练成为新的价值争夺场，历史记录本身被工具化，其作为社会记忆载体的独立价值被边缘化。

这种收缩并非均匀分布。小型地方媒体、独立记者、非营利调查机构，往往缺乏技术资源实施精细化的爬虫管理，其内容反而更易被纳入训练集。结果是：头部机构通过屏蔽保护"数据主权"，长尾内容继续无偿流入AI系统——公平使用的保护对象，与实际被利用的对象发生错位。

技术解决方案的局限性

部分观察者呼吁技术层面的妥协方案。例如，互联网档案馆可引入"AI训练排除协议"，允许出版方标记特定内容不得用于机器学习；或建立类似Creative Commons的分层授权体系，区分"人类阅读"与"机器处理"权限。

但这些方案面临执行困境。

技术标记的遵守依赖爬虫方的自觉，而AI训练数据的来源链条极度复杂——原始抓取、第三方聚合、用户上传、合成数据回流，任何环节的泄露都可能使标记失效。更根本的是，"人类阅读"与"机器学习"的边界本身正在模糊：当用户通过AI助手访问信息，两种行为模式已经交织。

另一种思路是重构存档的经济模型。互联网档案馆目前依赖捐赠和有限的项目资助，若能引入出版方参与的"授权存档"机制，或许可缓解信任赤字。但这与其非营利定位、以及"普遍访问"的使命存在张力。

2024年4月，互联网档案馆披露其年度运营预算约2500万美元，服务全球数亿用户。相比之下，OpenAI 2023年的收入 reportedly 超过16亿美元。资源规模的悬殊，决定了谈判桌上的话语权分布。

信息生态的再平衡难题

这场冲突没有简单的胜负判定。

媒体方有充分理由担忧价值被无偿榨取——新闻生产的成本（记者薪酬、调查支出、法律风险）与AI公司的边际收益之间存在结构性不对称。但将防御策略指向公共存档机构，而非直接规制商业AI爬虫，是一种目标错位的风险转嫁。

互联网档案馆的法律地位相对稳固，但其社会合法性正在经受考验。当出版方、平台、AI公司三方博弈，"公共利益"的代言人角色变得尴尬——它既非商业参与者，也非纯粹的政府职能延伸，其存续依赖于一个正在瓦解的共识：数字记忆应当超越即时性的商业计算。

更紧迫的问题是替代方案的缺失。如果Wayback Machine的覆盖范围持续收缩，谁来承接历史记录的职能？商业存档服务（如Archive.today、Perma.cc）各有局限：前者同样面临爬虫封锁，后者主要服务学术引用场景。国家图书馆的数字保存项目进展缓慢，且受主权边界限制。

一个可能的演进方向是"分布式存档"——基于区块链或联邦协议的冗余存储，降低单点故障风险。但技术成熟度、能源消耗、治理机制等问题尚未解决，短期内难以规模化。

规则真空中的临时秩序

当前的状态是典型的事后规制滞后。版权法框架形成于模拟时代，"合理使用"的司法解释主要针对搜索引擎、图书馆复印等场景。AI训练的系统性数据需求，超出了既有规则的预设范围。

欧盟《人工智能法案》尝试建立"高风险AI系统"的数据治理要求，但未直接解决训练数据的版权归属。美国国会相关听证会上，议员们的提问显示出技术理解的代际差距——一位参议员曾将大型语言模型类比为"高级的拼写检查器"。

在联邦立法缺位的情况下，行业自律协议成为次优选择。2024年初，部分AI公司自愿承诺尊重robots.txt中的"AI训练排除"标记，但承诺的法律约束力薄弱，且覆盖范围有限。更激进的出版方开始探索技术反制，如在内容中植入"数据毒药"——对人类不可见、但能污染模型训练的对抗性文本。

这种技术军备竞赛的终点难以预测。一个悲观场景是：高质量新闻内容逐渐退出开放网络，转入封闭的授权渠道，公共信息生态进一步劣化。乐观场景则是：新的商业模式（如微支付、动态授权）成熟，使内容生产与AI发展形成正和循环。

我们失去的究竟是什么

回到屏蔽行为本身，一个被低估的代价是"可验证性"的侵蚀。

在信息过载与深度伪造并存的当下，Wayback Machine提供了关键的基础设施功能：核实引文、追踪信息演变、识别篡改。记者、学者、事实核查员依赖它建立证据链。当这一工具的可及性下降，公共话语的基准线随之动摇。

《纽约时报》2023年的一篇调查报道，曾使用该报自己屏蔽的存档服务，核实某位政治人物多年前删除的推文。这种自我矛盾揭示了困境的复杂性：机构理性（保护数据资产）与职业伦理（支持信息透明）之间的冲突，并非外部强加，而是内生于同一组织。

AI幻觉问题的加剧，使这一悖论更加尖锐。当模型生成看似合理但虚构的信息，对原始信源的追溯需求上升；但原始信源的存档渠道却在收缩。我们可能在建设"更智能"的信息系统的同时，摧毁其纠错机制。

这种结构性张力，无法通过单一主体的道德选择化解。它需要法律框架的更新（明确AI训练的数据权利）、技术标准的协调（可执行的访问控制协议）、以及经济模型的创新（使存档服务获得可持续的资源支持）。

23家媒体的屏蔽决定，是一个症状而非病因。它标志着数字公共领域从"默认开放"向"默认封闭"的范式转移，而转移的驱动力来自一场关于智能机器如何学习的深层博弈。

当历史成为训练数据，谁有权决定它的使用方式——是创造它的记者，是存档它的机构，是训练模型的公司，还是最终依赖它形成认知的公众？这个问题没有现成答案，但回避它，意味着接受一个由默认设置悄悄塑造的未来。

23家媒体集体屏蔽网页存档：AI训练数据争夺战打响

热搜

热门跟贴

热搜

热门跟贴

相关推荐

国产算力机会来了！DeepSeek V4全量开源，华为寒武纪赢麻了

DeepSeek V4登顶了！梁文锋把四大技术秘方公开

迅雷杀回网盘市场，意欲何为？

超实用！连夜实测DeepSeek-V4，我发现它唯一的硬伤是“审美”

GPT-5.5发布：两倍定价，半步进化

OpenAI推Workspace Agents，GPTs成为过去式

太炸了！脱口秀冠军文本诞生！不好笑就露宿街头！

特工男携带重要文件被跟踪，装扮成盲人成功脱险

婚姻架构师：20条规则背后的设计逻辑

财政部：一季度全国财政收入增幅创3年来同期新高

美国移民“金卡”项目启动至今仅一人获批

Agent中的“爱马仕”来啦：100k+ Star 的开源AI Agent ，正在偷偷给自己升级

英特尔股价飙升27% 创下历史最高水平

中央发布重磅文件，2026房价现2个信号，大家做好准备！

大熊猫“平平”“福双”将赴美国

老人1500元卖掉自家大狗，小孙女舍不得哭得撕心裂肺，狗贩心软不收了，只要求退回1300元，“那200块就当补偿小姑娘吧”

别高估英伟达，别低估DeepSeek

记得住、答得快、用得省：HERMES 流式视频理解实时响应提速10倍

泡泡玛特：4月30日发售两款Labubu冰箱，售价5999元，每款全球限量发售999台

“苏超”烽烟再起，强强对话将现分水岭