Cloudflare发现32%流量来自机器人|Cloudflare|cdn|cloudflare|机器人|流量|爬虫|预取

去年夏天，一个电商运维团队发现自家服务器在凌晨三点被拖垮。排查日志时，他们看到同一秒内涌入了800多个请求，全部指向产品详情页的边角料——三年前的促销海报、已下架的SKU图片、用户协议PDF。攻击？不是。是某个AI助手在"学习"他们的商品库。

Cloudflare最新数据把这个现象量化了：全网32%的流量来自自动化程序，其中AI爬虫已占自识别AI流量的80%。更反直觉的是，这些机器人不挑热门内容，专扫冷门角落——人类用户可能只点首页和爆款，AI却要把整个网站犁一遍。

缓存设计的"人格分裂"

传统内容分发网络（CDN）的缓存逻辑，建立在一个人类行为假设上：20%的内容满足80%的请求。你把热门视频、首页CSS、爆款商品图塞进边缘节点，冷门数据扔回源站，成本最优。

AI爬虫来了，这套假设碎了一地。

苏黎世联邦理工学院与Cloudflare联合团队的研究显示，AI爬虫的流量模式几乎反着来：并行请求、全站扫描、冷热通吃。一个生成式AI（Generative AI）回答用户提问时，可能同时拉取技术文档、产品图、知识库文章，来源横跨几十个不相关的域名。

「人类像逛超市，拿完牛奶面包就走；AI像要把整个仓库的库存表抄一遍。」Cloudflare工程师在论文里打了个比方。

这直接导致缓存命中率暴跌。边缘节点拼命把AI扫过的冷门内容塞进去，下一秒就被正常用户的热门请求挤掉。源站被迫反复回源，带宽账单暴涨，人类用户反而拿不到缓存加速。

网站运营者现在面临一个二选一：调优给AI爬虫，还是给人类用户？当前架构不允许全都要。

为什么简单隔离行不通

最直观的解法似乎是"分池而治"——给AI和人类各开一套缓存。Cloudflare试过这个方向，很快撞上三面墙。

第一面墙：AI流量本身也在打架。不同AI公司的爬虫目标完全不同。Perplexity要实时新闻，OpenAI要高质量长文本，某电商大模型要商品结构化数据。把它们扔进同一个"AI池"，缓存策略依然互相踩踏。

第二面墙：识别成本。AI爬虫越来越擅长伪装成人类浏览器。User-Agent可以改，请求节奏可以模拟，甚至部分爬虫会执行JavaScript、渲染页面——和真人几乎无异。Cloudflare的Bot Management（机器人管理）系统能识别大部分，但识别本身消耗计算资源，且存在误伤真人的风险。

第三面墙：商业意愿的复杂性。不是所有网站都想挡住AI。开发者希望文档被大模型收录，电商希望商品描述进LLM（大语言模型）搜索结果，出版商甚至想按抓取次数收费。一刀切隔离会误伤这些"欢迎AI"的业务场景。

「我们遇到过一个客户，前脚投诉AI爬虫拖慢网站，后脚又要求确保自家内容被某大模型优先索引。」Cloudflare产品团队在博客中吐槽。