23家主流媒体正在联手绞杀一个它们每天都在用的工具。
Wired最新披露的数字让人错愕:USA Today、Reddit等23个平台已屏蔽互联网档案馆(Internet Archive)的网络爬虫。讽刺的是,这些机构的记者刚用Wayback Machine扒出了ICE拘留政策的黑料——转头就把档案馆的门锁了。
一边用,一边封
USA Today今年的一篇调查报道堪称教科书级操作。记者团队通过Wayback Machine追踪ICE官网的历史版本,发现该机构在特朗普任内多次延迟公开拘留数据,关键统计口径被悄悄篡改。
「他们能完成这项调查,正是因为Wayback Machine存在。与此同时,他们却在封锁访问。」Wayback Machine负责人Mark Graham的原话毫不客气。
USA Today母公司Gannett(现USA Today Co.)旗下运营着200多家媒体。这家出版巨头的机器人屏蔽列表里,ia_archiverbot赫然在列。
面对质疑,USA Today的回应是标准话术:屏蔽是为了防爬虫,并非针对互联网档案馆。但技术层面的事实是,ia_archiverbot被一刀切挡在了门外,无论初衷如何。
Originality AI的扫描结果更扎心:23家主流新闻站、社交平台Reddit都在屏蔽名单上。这不是某个编辑部的疏忽,是系统性的「用完即弃」。
记者们被迫自救
超过100名记者已经联名签署支持信,名单从MSNBC主播Rachel Maddow到独立记者Kat Tenbarge、Taylor Lorenz,跨度极大。
信中有段话戳中了行业痛点:「上一代记者会翻查本地报纸的实体档案,或去公共图书馆追溯历史。现在报纸倒闭,图书馆没能力保存纯数字报道,守护新闻记录的重担落在了互联网档案馆肩上。」
实体档案的消亡速度比想象中快。美国新闻协会数据显示,过去15年超过四分之一的地方报纸消失,留下的数字内容散落在各平台,随时可能404。
Wayback Machine每月抓取超过10亿网页,存储了8660亿个网页快照。这个数字背后是一个残酷现实:没有它,大量新闻证据链会随网站改版、服务器关停而蒸发。
档案馆的双面困境
互联网档案馆的尴尬在于,它既是公共服务,又依赖技术层面的「通行权」。爬虫协议(robots.txt)理论上允许网站自主选择是否被收录,但媒体巨头的屏蔽往往不加区分——防AI训练数据的爬虫时,顺手把档案馆也关了。
更深层的问题是版权与存档的永恒撕扯。出版商担心内容被永久镜像影响付费墙策略,记者却需要历史版本做交叉验证。同一机构内部,商业部门和编辑部在打架。
Mark Graham没有公开点名具体谈判进展,但语气并不乐观。USA Today的「非针对性」辩解,本质上是一种结构性冷漠:屏蔽列表太长,懒得为公共利益开白名单。
这种冷漠的代价正在显现。当调查记者需要核实某篇报道的原始版本,发现链接已死、档案馆未存档时,真相的拼图就缺了一块。
联名信最后写道:「我们呼吁新闻机构重新考虑屏蔽决定。」措辞克制,但潜台词清晰——你们正在锯断自己坐着的树枝。
USA Today那篇ICE调查报道的网页,现在还能在Wayback Machine找到快照。如果哪天Gannett决定彻底清理历史版本,谁来保证这条证据链不消失?
热门跟贴