2025年初,一场针对高流量爬虫的防御战正在悄然进行。多伦多大学系统管理员Chris Siebenmann在自己的技术博客"Wandering Thoughts"上设置了一道特殊的门槛:如果你的浏览器版本"太旧",可能会被直接拦在门外。

这场防御的起因很直接——大量用于训练大语言模型的爬虫程序正在疯狂抓取网页内容。这些爬虫有个共同特点:它们喜欢伪装成旧版Chrome浏览器。于是,屏蔽旧版Chrome用户代理(User-Agent)成了Siebenmann的实验性对策。

打开网易新闻 查看精彩图片

但误伤在所难免。Siebenmann在拦截页面上列出了几类特殊情况。Vivaldi浏览器的用户可能需要手动关闭"用户代理品牌掩码"功能,让浏览器表明真实身份而非伪装成Chrome。

使用Inoreader订阅的用户则遇到了更诡异的问题——这个正常的RSS阅读器有时会向用户展示拦截页面,尽管它的抓取程序本身并未被屏蔽。Siebenmann推测,Inoreader可能偶尔会用旧版浏览器代理去获取内容,然后把拦截页面当成了正式内容呈现。

最棘手的是archive.*系列存档网站。这些服务为了抓取网页存档,采用了与恶意爬虫几乎无法区分的策略:旧版Chrome用户代理、广泛分布的IP地址段、甚至伪造的googlebot反向DNS记录。Siebenmann的建议很直接:改用行为更规范的archive.org。

这场实验暴露了一个现代网络的尴尬现实:HTTP用户代理这个本用于标识浏览器身份的字段,已经变成了真假难辨的战场。当防御方不得不采取"宁可错杀"的策略时,普通用户的正常访问就成了附带损害。Siebenmann留下了联系邮箱,邀请被误伤的真实用户反馈情况——这是技术治理中少见的人性化缓冲。