互联网档案馆被23家媒体集体封禁，自家记者却偷偷在用

薛定谔的BUG

2026-04-14 09:08 ·北京

23家主流媒体正在联手绞杀一个它们每天都在用的工具。

Wired最新披露的数字让人错愕：USA Today、Reddit等23个平台已屏蔽互联网档案馆（Internet Archive）的网络爬虫。讽刺的是，这些机构的记者刚用Wayback Machine扒出了ICE拘留政策的黑料——转头就把档案馆的门锁了。

一边用，一边封

一边用，一边封

USA Today今年的一篇调查报道堪称教科书级操作。记者团队通过Wayback Machine追踪ICE官网的历史版本，发现该机构在特朗普任内多次延迟公开拘留数据，关键统计口径被悄悄篡改。

「他们能完成这项调查，正是因为Wayback Machine存在。与此同时，他们却在封锁访问。」Wayback Machine负责人Mark Graham的原话毫不客气。

USA Today母公司Gannett（现USA Today Co.）旗下运营着200多家媒体。这家出版巨头的机器人屏蔽列表里，ia_archiverbot赫然在列。

面对质疑，USA Today的回应是标准话术：屏蔽是为了防爬虫，并非针对互联网档案馆。但技术层面的事实是，ia_archiverbot被一刀切挡在了门外，无论初衷如何。

Originality AI的扫描结果更扎心：23家主流新闻站、社交平台Reddit都在屏蔽名单上。这不是某个编辑部的疏忽，是系统性的「用完即弃」。

记者们被迫自救

记者们被迫自救

超过100名记者已经联名签署支持信，名单从MSNBC主播Rachel Maddow到独立记者Kat Tenbarge、Taylor Lorenz，跨度极大。

信中有段话戳中了行业痛点：「上一代记者会翻查本地报纸的实体档案，或去公共图书馆追溯历史。现在报纸倒闭，图书馆没能力保存纯数字报道，守护新闻记录的重担落在了互联网档案馆肩上。」

实体档案的消亡速度比想象中快。美国新闻协会数据显示，过去15年超过四分之一的地方报纸消失，留下的数字内容散落在各平台，随时可能404。

Wayback Machine每月抓取超过10亿网页，存储了8660亿个网页快照。这个数字背后是一个残酷现实：没有它，大量新闻证据链会随网站改版、服务器关停而蒸发。

档案馆的双面困境

档案馆的双面困境

互联网档案馆的尴尬在于，它既是公共服务，又依赖技术层面的「通行权」。爬虫协议（robots.txt）理论上允许网站自主选择是否被收录，但媒体巨头的屏蔽往往不加区分——防AI训练数据的爬虫时，顺手把档案馆也关了。

更深层的问题是版权与存档的永恒撕扯。出版商担心内容被永久镜像影响付费墙策略，记者却需要历史版本做交叉验证。同一机构内部，商业部门和编辑部在打架。

Mark Graham没有公开点名具体谈判进展，但语气并不乐观。USA Today的「非针对性」辩解，本质上是一种结构性冷漠：屏蔽列表太长，懒得为公共利益开白名单。

这种冷漠的代价正在显现。当调查记者需要核实某篇报道的原始版本，发现链接已死、档案馆未存档时，真相的拼图就缺了一块。

联名信最后写道：「我们呼吁新闻机构重新考虑屏蔽决定。」措辞克制，但潜台词清晰——你们正在锯断自己坐着的树枝。

USA Today那篇ICE调查报道的网页，现在还能在Wayback Machine找到快照。如果哪天Gannett决定彻底清理历史版本，谁来保证这条证据链不消失？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴