去年夏天,一个电商运维团队发现自家服务器在凌晨三点被拖垮。排查日志时,他们看到同一秒内涌入了800多个请求,全部指向产品详情页的边角料——三年前的促销海报、已下架的SKU图片、用户协议PDF。攻击?不是。是某个AI助手在"学习"他们的商品库。
Cloudflare最新数据把这个现象量化了:全网32%的流量来自自动化程序,其中AI爬虫已占自识别AI流量的80%。更反直觉的是,这些机器人不挑热门内容,专扫冷门角落——人类用户可能只点首页和爆款,AI却要把整个网站犁一遍。
缓存设计的"人格分裂"
传统内容分发网络(CDN)的缓存逻辑,建立在一个人类行为假设上:20%的内容满足80%的请求。你把热门视频、首页CSS、爆款商品图塞进边缘节点,冷门数据扔回源站,成本最优。
AI爬虫来了,这套假设碎了一地。
苏黎世联邦理工学院与Cloudflare联合团队的研究显示,AI爬虫的流量模式几乎反着来:并行请求、全站扫描、冷热通吃。一个生成式AI(Generative AI)回答用户提问时,可能同时拉取技术文档、产品图、知识库文章,来源横跨几十个不相关的域名。
「人类像逛超市,拿完牛奶面包就走;AI像要把整个仓库的库存表抄一遍。」Cloudflare工程师在论文里打了个比方。
这直接导致缓存命中率暴跌。边缘节点拼命把AI扫过的冷门内容塞进去,下一秒就被正常用户的热门请求挤掉。源站被迫反复回源,带宽账单暴涨,人类用户反而拿不到缓存加速。
网站运营者现在面临一个二选一:调优给AI爬虫,还是给人类用户?当前架构不允许全都要。
为什么简单隔离行不通
最直观的解法似乎是"分池而治"——给AI和人类各开一套缓存。Cloudflare试过这个方向,很快撞上三面墙。
第一面墙:AI流量本身也在打架。不同AI公司的爬虫目标完全不同。Perplexity要实时新闻,OpenAI要高质量长文本,某电商大模型要商品结构化数据。把它们扔进同一个"AI池",缓存策略依然互相踩踏。
第二面墙:识别成本。AI爬虫越来越擅长伪装成人类浏览器。User-Agent可以改,请求节奏可以模拟,甚至部分爬虫会执行JavaScript、渲染页面——和真人几乎无异。Cloudflare的Bot Management(机器人管理)系统能识别大部分,但识别本身消耗计算资源,且存在误伤真人的风险。
第三面墙:商业意愿的复杂性。不是所有网站都想挡住AI。开发者希望文档被大模型收录,电商希望商品描述进LLM(大语言模型)搜索结果,出版商甚至想按抓取次数收费。一刀切隔离会误伤这些"欢迎AI"的业务场景。
「我们遇到过一个客户,前脚投诉AI爬虫拖慢网站,后脚又要求确保自家内容被某大模型优先索引。」Cloudflare产品团队在博客中吐槽。
ETH团队提出的三条野路子
苏黎世联邦理工的研究没有停留在抱怨。他们在2025年ACM云计算研讨会上发表的论文《Rethinking Web Cache Design for the AI Era》,提出了几个反常规的实验方向。
方向一:让AI"自带缓存提示"。爬虫在请求头里声明"我需要这批数据用于RAG(检索增强生成),有效期72小时",CDN据此调整存储层级和过期策略。相当于AI自己告诉边缘节点:"我三天后还来,别急着删。"
这需要行业标准,目前HTTP协议里没有原生支持。但Cloudflare已经在部分合作伙伴中测试类似的"缓存意向"扩展头。
方向二:预测性预取,但只给AI。传统预取(Prefetch)对人类用户很有效——你点开文章页,CDN提前把评论区CSS拉好。但对AI的全站扫描,预取会放大垃圾流量。新思路是反向操作:CDN识别出AI爬虫后,主动压缩其请求模式,把"一千个分散小请求"合并为"一批批量响应",减少连接开销。
方向三:内容热度"双轨制"。同一URL在人类视角和AI视角下,热度评分完全不同。一篇三年前的技术博客,人类可能永不访问,但AI爬虫每月来扫两次。新架构允许缓存层维护两套热度统计,物理存储共享,淘汰策略分离。
论文显示,在Cloudflare边缘节点的模拟测试中,双轨制将AI场景的缓存命中率提升了34%,同时人类用户的命中率只下降2%。
一个被忽视的利益博弈
技术方案背后,是更复杂的商业谈判。
Cloudflare在博客中罕见地提到了"按抓取付费"(pay per crawl)机制。部分出版商正在与AI公司谈判,希望把爬虫访问转化为收入。这要求CDN层能精确计量、区分不同AI来源的流量,甚至实时定价。
「缓存不再只是性能优化工具,正在变成内容分发的计费基础设施。」ETH论文的第一作者张(Zhang)在会议上表示。
这也意味着,未来的CDN可能需要支持"分层服务等级":某AI公司签了付费协议,它的爬虫获得优先缓存和更快响应;未签约的爬虫被限速或引导至次级节点。技术上可行,但伦理和法律边界模糊——这是否构成对互联网开放性的破坏?
Cloudflare没有给出答案,只抛出了数据:目前使用其Bot Management工具主动限制AI爬虫的客户中,43%在一周内又放宽了限制,原因是"发现搜索排名下降"或"被合作伙伴投诉内容未收录"。
抵制AI爬虫的代价,可能比接纳它更高。这个发现本身,或许比任何技术方案都更值得从业者细想:当你的竞争对手选择向AI敞开大门,你的缓存策略还能坚持"人类优先"多久?
热门跟贴