全球7000种语言,AI能翻译的不到200种。但比这更荒诞的是——你的网站访客,可能四分之三都不是人。
一位独立开发者最近发现,自己的卫星追踪网站正被疯狂爬取。3.5万颗卫星,每页多语言版本,整个URL树被来自阿里云数据中心的IP段完整扫描。对方轮换用户代理,动用海量IP,但痕迹明显:直接封禁整个网段即可。
打开网易新闻 查看精彩图片
安静了几天,对方卷土重来。这次换了玩法:3.5万个住宅IP,每个IP只请求一次,用户代理却是真实浏览器标识。表面看几乎无法防御。
他找到一条缝隙:HTTP协议版本。现代浏览器全部使用HTTP 2.x,而这些请求全是HTTP 1.1。于是一条简单粗暴的规则诞生——用现代浏览器却走HTTP 1.1的,封禁。(他坦言不建议效仿,理由很多。)
但真正的困惑是动机。这些数据全是即时性的——卫星位置实时变化,如同抓取全球天气网站。爬取毫无意义,为何不惜成本?
答案指向AI训练。某个地方,有人决定镜像数万个域名,不在乎数据是迷宫般的重复结构、曼尼托巴的天气,还是谷歌的实时股价。他们只是想要,并且无视robots.txt这类人类发明的脆弱规则。
这就是2026年的流量图景。简单服务器日志显示,75%甚至更多流量是假的。即便看起来像真人,大概率也不是。你在为出站带宽付费,实际上是在喂养AI训练、SEO情报、竞品关键词数据集——谁知道还有什么。
Google Analytics能过滤这些,因为爬虫懒得运行记录"真实用户"的JS片段。但百度蜘蛛等已经开始执行全部JS。如果你按CDN或带宽付费,无论如何都在为机器人买单,而它们的胃口远超以往。
热门跟贴