网站们悄悄划下的AI边界，正在把互联网切成孤岛

像素与芯片

2026-06-30 01:51 ·北京

最近看到一段关于人工智能爬虫和robots.txt的讨论。核心问题直白得令人意外：网站所有者到底该不该让AI系统抓取他们的内容？

有人晒出了一份配置方案，长这样：用户代理设为ClaudeBot，允许抓取；用户代理设为GPTBot，禁止；ChatGPT-User，禁止；PerplexityBot，同样禁止。

粗看之下，这种差别待遇背后有它自洽的商业逻辑。可能是网站跟某家AI厂商签了商业协议，对另一家则没有。可能单纯更信任某个机构。也可能就是看某家公司不顺眼，不想让它从自家内容里捞到好处。这些决策都说得通。

有个前提得记牢：robots.txt本质上是请求，不是一堵墙。它只能约束那些愿意遵守规则的爬虫。我们接下来要讨论的"边界"，靠的是合规惯例和授权协议才得以形成，并非技术上的强制执行。

真正有意思的问题藏在后面：当成千上万个机构同时做出类似决策时，局面会变成什么样。

过去大多数时间里，现代互联网守着一条心照不宣的假设：大家都从大致相同的信息池里取水喝。搜索引擎质量有高下之分，排序算法各不相同，有些信源更容易被发现，这些都不假。但总体而言，两个人搜同一个话题，他们引用的底层信源有极大概率是重合的。网络作为一个知识语料库，大体上是共享的。

这个假设未必能永远成立。

人们一谈到信息割裂，习惯性直奔那些最极端的例子——政府审查、国家级防火墙，或是成体系的宣传机器。这些都是真实存在的样本。但信息割裂的出现，压根不需要谁怀揣恶意。

设想以下局面：A公司屏蔽OpenAI，却对Anthropic敞开大门。B公司把内容独家授权给OpenAI。C公司一刀切，禁止所有AI爬虫。D公司专门针对某一个AI平台做优化。E公司私下跟某家商业搜索服务商签了协议。

这些机构里没有谁成心要制造信息茧房。他们不过是在一个已经不再给自家网站导流的生态里，努力守住知识产权，或者谈下一笔事关生存的授权合同。每家做的决策，从本地视角看都合情合理。可把这些决策聚合到一块，不同的信息环境就开始成形了。这种分野不是从AI的推理逻辑里长出来的，是从AI的访问权限里长出来的。

有两类访问需要拆开来看，它们造成割裂的机制不一样。第一类是模型训练阶段喂进去的数据。第二类是你提问那一瞬间，模型能实时触达的数据库。今天这两者高度重叠，多数大模型都是从几乎同一批底层语料里训练出来的。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴