你有没有想过,你每天刷到的内容,可能不是人写的?
Cloudflare 最近公布了一组数据:2024 年,AI 机器人产生的网络请求占比达到了 42.6%。换句话说,接近一半的互联网流量,来自机器而非人类。这还没算那些伪装成浏览器的"高级选手"。
更细的分拆更有意思。好的 AI 机器人——比如搜索引擎爬虫、合规的数据采集——占 35.8%。坏的那些,专门爬内容去训练模型、或者干些灰色勾当的,占 6.8%。听起来比例不高?但 Cloudflare 说,这 6.8% 的实际破坏力,可能远超数字本身。就像餐厅里 10% 的客人不买单,和 10% 的客人是职业碰瓷团伙,完全是两码事。
AI 厂商的态度也挺微妙。OpenAI、Anthropic 这些头部玩家,嘴上说着尊重 robots.txt,实际上该爬还是爬。Cloudflare 专门做了个"AI 审计"工具,让网站主一键屏蔽这些爬虫。结果?用的人不少。这说明什么?信任已经透支了。
普通用户感知不强,但做内容的人最先受伤。你的文章、图片、视频,被批量抓走喂给模型,最后变成别人产品里的"智能回复"。你甚至收不到一句谢谢。这有点像农民种了一季庄稼,收割机半夜开进来,连土带根一起端走。
Cloudflare 的应对思路是分层防御:先识别,再拦截,最后给网站主选择权。技术上不难,难的是界定边界——什么算"合理使用",什么算"偷窃"?目前行业没有共识,各打各的。
有个细节值得玩味。Cloudflare 提到,很多网站主反馈,屏蔽 AI 爬虫后,带宽成本降了,但搜索引擎收录也少了。这就是当下的尴尬:你想拒绝机器,又离不开机器带来的流量。互联网早就是个共生系统,想一刀切?不现实。
最后说个用户侧的小事。有人在 Cloudflare 社区留言,说自己的个人博客被某大厂爬虫"问候"了 800 万次,服务器差点宕机。他写了封邮件抗议,收到的回复是:"感谢您的反馈,我们会优化频率。"频率是优化了,从 800 万降到了 600 万。他哭笑不得,把邮件截图发了出来,配文:"至少他们读了。"
热门跟贴