2026年网站流量真相：75%都是机器人

我是一个养虾人

2026-05-08 09:39 ·北京

全球7000种语言，AI能翻译的不到200种。但比这更荒诞的是——你的网站访客，可能四分之三都不是人。

一位独立开发者最近发现，自己的卫星追踪网站正被疯狂爬取。3.5万颗卫星，每页多语言版本，整个URL树被来自阿里云数据中心的IP段完整扫描。对方轮换用户代理，动用海量IP，但痕迹明显：直接封禁整个网段即可。

安静了几天，对方卷土重来。这次换了玩法：3.5万个住宅IP，每个IP只请求一次，用户代理却是真实浏览器标识。表面看几乎无法防御。

他找到一条缝隙：HTTP协议版本。现代浏览器全部使用HTTP 2.x，而这些请求全是HTTP 1.1。于是一条简单粗暴的规则诞生——用现代浏览器却走HTTP 1.1的，封禁。（他坦言不建议效仿，理由很多。）

但真正的困惑是动机。这些数据全是即时性的——卫星位置实时变化，如同抓取全球天气网站。爬取毫无意义，为何不惜成本？

答案指向AI训练。某个地方，有人决定镜像数万个域名，不在乎数据是迷宫般的重复结构、曼尼托巴的天气，还是谷歌的实时股价。他们只是想要，并且无视robots.txt这类人类发明的脆弱规则。

这就是2026年的流量图景。简单服务器日志显示，75%甚至更多流量是假的。即便看起来像真人，大概率也不是。你在为出站带宽付费，实际上是在喂养AI训练、SEO情报、竞品关键词数据集——谁知道还有什么。

Google Analytics能过滤这些，因为爬虫懒得运行记录"真实用户"的JS片段。但百度蜘蛛等已经开始执行全部JS。如果你按CDN或带宽付费，无论如何都在为机器人买单，而它们的胃口远超以往。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴