最近看到一段关于人工智能爬虫和robots.txt的讨论。核心问题直白得令人意外:网站所有者到底该不该让AI系统抓取他们的内容?

有人晒出了一份配置方案,长这样:用户代理设为ClaudeBot,允许抓取;用户代理设为GPTBot,禁止;ChatGPT-User,禁止;PerplexityBot,同样禁止。

打开网易新闻 查看精彩图片

粗看之下,这种差别待遇背后有它自洽的商业逻辑。可能是网站跟某家AI厂商签了商业协议,对另一家则没有。可能单纯更信任某个机构。也可能就是看某家公司不顺眼,不想让它从自家内容里捞到好处。这些决策都说得通。

有个前提得记牢:robots.txt本质上是请求,不是一堵墙。它只能约束那些愿意遵守规则的爬虫。我们接下来要讨论的"边界",靠的是合规惯例和授权协议才得以形成,并非技术上的强制执行。

真正有意思的问题藏在后面:当成千上万个机构同时做出类似决策时,局面会变成什么样。

过去大多数时间里,现代互联网守着一条心照不宣的假设:大家都从大致相同的信息池里取水喝。搜索引擎质量有高下之分,排序算法各不相同,有些信源更容易被发现,这些都不假。但总体而言,两个人搜同一个话题,他们引用的底层信源有极大概率是重合的。网络作为一个知识语料库,大体上是共享的。

这个假设未必能永远成立。

人们一谈到信息割裂,习惯性直奔那些最极端的例子——政府审查、国家级防火墙,或是成体系的宣传机器。这些都是真实存在的样本。但信息割裂的出现,压根不需要谁怀揣恶意。

设想以下局面:A公司屏蔽OpenAI,却对Anthropic敞开大门。B公司把内容独家授权给OpenAI。C公司一刀切,禁止所有AI爬虫。D公司专门针对某一个AI平台做优化。E公司私下跟某家商业搜索服务商签了协议。

这些机构里没有谁成心要制造信息茧房。他们不过是在一个已经不再给自家网站导流的生态里,努力守住知识产权,或者谈下一笔事关生存的授权合同。每家做的决策,从本地视角看都合情合理。可把这些决策聚合到一块,不同的信息环境就开始成形了。这种分野不是从AI的推理逻辑里长出来的,是从AI的访问权限里长出来的。

有两类访问需要拆开来看,它们造成割裂的机制不一样。第一类是模型训练阶段喂进去的数据。第二类是你提问那一瞬间,模型能实时触达的数据库。今天这两者高度重叠,多数大模型都是从几乎同一批底层语料里训练出来的。