Cloudflare将默认屏蔽AI爬虫，网站要开始收费了？|cloudflare|满血版模型|爬虫|索引

为什么一个基础设施层的默认设置变动，能把AI行业的数据规则推到转折点？Cloudflare在7月1日发出明确信号：从2026年9月15日起，凡是广告支持的页面，将默认对三类机器人说不——它们是用于训练的AI爬虫、替用户执行操作的AI代理，以及一边做搜索索引一边悄悄喂模型的混合用途爬虫。

这不是一个全线收费开关，也不是立刻覆盖所有客户。新增默认规则主要落在新域名、原有客户新开的站点以及现有免费客户头上，付费客户并未被一刀切。但决策的关键在于，Cloudflare恰恰卡在大量网站的前端流量入口。当它不再只是劝告“请尊重robots.txt”，而是直接以网络把守人的身份改掉默认许可规则时，效果就完全不同了。

这套新规则里有两个微妙却重要的切割。一是将AI搜索爬虫和AI训练爬虫分账，让发布者可以区别对待：只做答案引擎索引的机器人仍能进门，但凡兼做模型训练的则会被拦下。另一个切割指向混合用途爬虫——过去那种一个通用爬虫同时满足搜索可见性和训练数据采集的做法，开始变得代价高昂。可行的出路是把功能拆成独立的、身份明确且可验证的爬虫，让内容方有空间选择允许搜索而阻止训练。

与默认屏蔽几乎同步推进的，是仍在私测阶段的“按抓取付费”（Pay Per Crawl）。发布者给符合规则的爬虫请求标个价，Cloudflare负责核对爬虫身份、发起计费、聚合款项，再通过Stripe按月结算打款。与其说那是面向读者的内容付费墙，不如说是一条把“访问权”变成标准化计费项的管道。TechCrunch所报道的更广泛的“按用量付费”模型，也是同一个逻辑的延展：用默认拒绝来制造谈判场景，用清晰的爬虫身份和支付接入来打开通道。

Cloudflare并没有替任何一个网站自动向AI公司发出账单。它只是用默认不允入的方式把问题重新抛回给AI公司：要么把训练和搜索功能彻底分拆，亮明身份并进入支付管线；要么继续混用爬虫，承担大面积被封堵的风险。对于靠爬取数据驱动的链条来说，这一次，定义规则的既不是内容方请愿，也不是AI公司的承诺，而是一个站在中间的转发和防护层。