一个博客的反爬虫实验：当1个旧浏览器标识引发3类"误伤"事件|chrome|博客|反爬虫实验|浏览器

2025年初，一场针对高流量爬虫的防御战正在悄然进行。多伦多大学系统管理员Chris Siebenmann在自己的技术博客"Wandering Thoughts"上设置了一道特殊的门槛：如果你的浏览器版本"太旧"，可能会被直接拦在门外。

这场防御的起因很直接——大量用于训练大语言模型的爬虫程序正在疯狂抓取网页内容。这些爬虫有个共同特点：它们喜欢伪装成旧版Chrome浏览器。于是，屏蔽旧版Chrome用户代理（User-Agent）成了Siebenmann的实验性对策。

但误伤在所难免。Siebenmann在拦截页面上列出了几类特殊情况。Vivaldi浏览器的用户可能需要手动关闭"用户代理品牌掩码"功能，让浏览器表明真实身份而非伪装成Chrome。

使用Inoreader订阅的用户则遇到了更诡异的问题——这个正常的RSS阅读器有时会向用户展示拦截页面，尽管它的抓取程序本身并未被屏蔽。Siebenmann推测，Inoreader可能偶尔会用旧版浏览器代理去获取内容，然后把拦截页面当成了正式内容呈现。

最棘手的是archive.*系列存档网站。这些服务为了抓取网页存档，采用了与恶意爬虫几乎无法区分的策略：旧版Chrome用户代理、广泛分布的IP地址段、甚至伪造的googlebot反向DNS记录。Siebenmann的建议很直接：改用行为更规范的archive.org。

这场实验暴露了一个现代网络的尴尬现实：HTTP用户代理这个本用于标识浏览器身份的字段，已经变成了真假难辨的战场。当防御方不得不采取"宁可错杀"的策略时，普通用户的正常访问就成了附带损害。Siebenmann留下了联系邮箱，邀请被误伤的真实用户反馈情况——这是技术治理中少见的人性化缓冲。

一个博客的反爬虫实验：当1个旧浏览器标识引发3类"误伤"事件