为什么一个基础设施层的默认设置变动,能把AI行业的数据规则推到转折点?Cloudflare在7月1日发出明确信号:从2026年9月15日起,凡是广告支持的页面,将默认对三类机器人说不——它们是用于训练的AI爬虫、替用户执行操作的AI代理,以及一边做搜索索引一边悄悄喂模型的混合用途爬虫。
这不是一个全线收费开关,也不是立刻覆盖所有客户。新增默认规则主要落在新域名、原有客户新开的站点以及现有免费客户头上,付费客户并未被一刀切。但决策的关键在于,Cloudflare恰恰卡在大量网站的前端流量入口。当它不再只是劝告“请尊重robots.txt”,而是直接以网络把守人的身份改掉默认许可规则时,效果就完全不同了。
这套新规则里有两个微妙却重要的切割。一是将AI搜索爬虫和AI训练爬虫分账,让发布者可以区别对待:只做答案引擎索引的机器人仍能进门,但凡兼做模型训练的则会被拦下。另一个切割指向混合用途爬虫——过去那种一个通用爬虫同时满足搜索可见性和训练数据采集的做法,开始变得代价高昂。可行的出路是把功能拆成独立的、身份明确且可验证的爬虫,让内容方有空间选择允许搜索而阻止训练。
与默认屏蔽几乎同步推进的,是仍在私测阶段的“按抓取付费”(Pay Per Crawl)。发布者给符合规则的爬虫请求标个价,Cloudflare负责核对爬虫身份、发起计费、聚合款项,再通过Stripe按月结算打款。与其说那是面向读者的内容付费墙,不如说是一条把“访问权”变成标准化计费项的管道。TechCrunch所报道的更广泛的“按用量付费”模型,也是同一个逻辑的延展:用默认拒绝来制造谈判场景,用清晰的爬虫身份和支付接入来打开通道。
Cloudflare并没有替任何一个网站自动向AI公司发出账单。它只是用默认不允入的方式把问题重新抛回给AI公司:要么把训练和搜索功能彻底分拆,亮明身份并进入支付管线;要么继续混用爬虫,承担大面积被封堵的风险。对于靠爬取数据驱动的链条来说,这一次,定义规则的既不是内容方请愿,也不是AI公司的承诺,而是一个站在中间的转发和防护层。
热门跟贴