互联网流量正在被"非人类"吃掉，比例高到离谱|互联网|搜索引擎|机器人|流量|爬虫

你有没有想过，你每天刷到的内容，可能不是人写的？

Cloudflare 最近公布了一组数据：2024 年，AI 机器人产生的网络请求占比达到了 42.6%。换句话说，接近一半的互联网流量，来自机器而非人类。这还没算那些伪装成浏览器的"高级选手"。

更细的分拆更有意思。好的 AI 机器人——比如搜索引擎爬虫、合规的数据采集——占 35.8%。坏的那些，专门爬内容去训练模型、或者干些灰色勾当的，占 6.8%。听起来比例不高？但 Cloudflare 说，这 6.8% 的实际破坏力，可能远超数字本身。就像餐厅里 10% 的客人不买单，和 10% 的客人是职业碰瓷团伙，完全是两码事。

AI 厂商的态度也挺微妙。OpenAI、Anthropic 这些头部玩家，嘴上说着尊重 robots.txt，实际上该爬还是爬。Cloudflare 专门做了个"AI 审计"工具，让网站主一键屏蔽这些爬虫。结果？用的人不少。这说明什么？信任已经透支了。

普通用户感知不强，但做内容的人最先受伤。你的文章、图片、视频，被批量抓走喂给模型，最后变成别人产品里的"智能回复"。你甚至收不到一句谢谢。这有点像农民种了一季庄稼，收割机半夜开进来，连土带根一起端走。

Cloudflare 的应对思路是分层防御：先识别，再拦截，最后给网站主选择权。技术上不难，难的是界定边界——什么算"合理使用"，什么算"偷窃"？目前行业没有共识，各打各的。

有个细节值得玩味。Cloudflare 提到，很多网站主反馈，屏蔽 AI 爬虫后，带宽成本降了，但搜索引擎收录也少了。这就是当下的尴尬：你想拒绝机器，又离不开机器带来的流量。互联网早就是个共生系统，想一刀切？不现实。

最后说个用户侧的小事。有人在 Cloudflare 社区留言，说自己的个人博客被某大厂爬虫"问候"了 800 万次，服务器差点宕机。他写了封邮件抗议，收到的回复是："感谢您的反馈，我们会优化频率。"频率是优化了，从 800 万降到了 600 万。他哭笑不得，把邮件截图发了出来，配文："至少他们读了。"