互联网上人人遵守的君子协定，正在被AI撕得粉碎！

码农翻身

2026-01-19 08:57 ·河南 ·前IBM系统架构师，《码农翻身》，《半小时漫画计算机》作者。优质互联网领域创作者

1993年，互联网还很小。

我每天早上都会收到一个叫做《what’s new on the web》的邮件，上面会列出所有新出现的网站。

没错，是所有的新网站。

我常常一边喝咖啡，一边浏览这些网站，通常10点钟之前就能看完。

无聊的时候，我开始自学Perl，尝试写网络爬虫，这些爬虫是有用的，比如可以用来做网站目录，统计文档数，检查死链，网页评价大小等等。

在测试的时候，我选择了一个极为愚蠢的起始URL：一个讲网络爬虫的知识的网站。

这个网站运行在一家非常小的公司的服务器上，而且只有一条14.4K的专线。（别觉得14.4K很小，我们公司200人，也就租了一个64K的专线）。

我的爬虫无意间进行了一次拒绝服务攻击（DoS），把那个网站搞垮了。

负责那个网站的人叫马丁(Martijn Koster) ，他很生气，立刻要求我停止那些疯狂的请求。

马丁不是一般人，他发明了世界上第一个Web搜索引擎AliWeb。

当他意识到网络爬虫可能泛滥的时候，他发明了一套标准的流程：“机器人排除协议”（Robots Exclusion Protocol）。

当你的网络机器人访问一个新网站时，需要先去找一个叫 robots.txt 的文件，解析它，然后避开里面列出的目录或文件。

例如，如果robots.txt长这个样子：

User-agent: googlebot

Disallow: /private/

它的意思是对于googlebot这个网络爬虫，不允许抓取/private这个目录下的内容。

我觉得我可能写了第一个遵守 robots.txt 协议的爬虫，但可以肯定的是，我是那个逼得它被发明出来的蠢蛋。

0 1

君子协定，神奇运行30年

上面的故事来自查尔斯·斯特罗斯 (Charles Stross) 的自述，非常生动地讲述了robots.txt被发明的过程。

它并不是一个委员会设计出来的规范，而是早期的互联网用户为了解决问题被迫发明的方法。

马丁只是把这个办法发到了WWW-Talk的邮件列表中，然后成员们讨论robots.txt的基本语言和结构，最后达成一致，所有人都开始支持robots.txt。

它不像TCP/IP，你不支持就无法联网，它是一个君子协定，是否遵守完全看网络爬虫编写者的意愿。

这有点儿像在你敞开的房间门口立上一块牌子：禁止入内。

网络爬虫/机器人看到了，就真的不进入这个房间了，不管这个房间里有多少宝贝。

让人惊奇的是，在长达30年的时间内，robots.txt运转良好。

为什么它能活下来？

在早期，原因只有一个：不守规矩的机器人，会被全网封杀

在那个小圈子里，“流氓机器人”的IP会被拉黑，域名会被公开点名，这是致命的名誉风险。

0 2

最遵守robots.txt的公司赢了

时间很快来到90年代末，互联网迅猛扩张，海量的网站一个上午绝对是看不完了。

那些藏在世界各地的网站，不通过搜索引擎，无论如何也是找不到的。

于是，搜索引擎和网站之间就robots.txt达成了完美的默契。

网站允许Google爬虫抓取自己的网页，这样它们就可能展示到搜索结果中，给自己带来巨大的曝光流量。

而Google也严格遵循robots.txt的规定，将流量导致其他网站，同时在搜索结果中投放广告。

这是一次极为成功的价值交换：你让我爬数据，我给你流量。

虽然robots.txt此时已经成为事实标准，但世界那么大，总有不遵守robots.txt的公司。

尤其是那些信息聚合网站，无视robots.txt的约定，从别人的网站抓取数据（例如新闻，产品信息），聚合后放到自己的网站上。

例如美国的Bidder's Edge（简称BE），它建立了一个拍卖信息的聚合网站，专门从包括eBay在内的各个拍卖网站去收集信息，这样BE的用户就可以轻松搜索互联网上的拍卖信息，而无需访问单独的拍卖网站。

这eBay肯定不能忍，由于robots.txt是个君子协定，它只好去限制BE爬虫的IP地址，但是BE通过代理服务器，绕过了IP的限制。

eBay没办法，最后一纸诉状把BE告上了法庭，2000年5月，法院以非法入侵为由，禁止BE以任何自动手段抓取eBay服务器的数据。

0 3

君子协议被撕毁

2017年，一个致力于保存互联网的网站“互联网档案馆”，干了一件震动圈子的事情：不再遵守robots.txt。

互联网档案馆的理由很直接：robots.txt是为了“搜索”设计的，我的目标是保存所有网页的快照，保存人类的互联网文明，所以没必要遵守。

不过这件事儿没有引起太大波澜，因为互联网档案馆是个非盈利的机构，它即使不遵守robots.txt，把所有数据都爬了下来，但依然免费开放，不会拿这些数据去盈利。

但是对于AI公司来说，一切都不一样了。

如果你开了一家AI公司，严格遵守robots.txt，而你的竞争对手通过换UA/IP，偷偷地多抓取一些，结果会如何呢？

你公司的模型由于训练数据少，自然比不上竞争对手。

用户会因为你的道德规范高而支持你吗？不会，他们肯定都跑到竞争对手那里去了。

“如果我守规矩，而对手不守，我就输了，所以我也不能遵守”。

抓数据其实也没啥，要命的是流量无法回流到网站了：

（1）网站内容被吸干，流量消失。

（2）AI直接给出答案，用户再也不会去原来的网站。

（3）内容的创作者，丧失署名权，没有分成。

所有的网站都感受到脊背发凉：AI不是给我带来流量的，而是来取代我的。

所以，一定要屏蔽掉那些AI公司的爬虫！

2023 年，Originality.AI统计发现，在访问量最高的 1000 个网站中，有 306 个在其 robots.txt 文件中屏蔽了 OpenAI 的 GPTBot，85 个屏蔽了谷歌的 Google-Extended。

BBC 和《纽约时报》等新闻网站普遍禁止访问 GPTBot。2023 年，博客平台 Medium 宣布将禁止所有人工智能网络爬虫访问。

OpenAI也摆出了高姿态，说要遵守robots.txt，自家爬虫的名字就叫GPTBot，它还发布并推广了一个页面，“贴心”地教人们如何在robots.txt中屏蔽它。

但是，这一切发生在“强大的底层模型已经训练完成之后”。

换句话说：“你的模型已经吃饱了，你才开始讲礼貌？” 这谁受得了？

robots.txt 是建立在“善意 + 搜索回流”之上的制度，而 AI 打破了这三点。

0 4

尾声

robots的结构性缺陷，在AI时代彻底暴露。

2025 年，非营利组织 RSL Collective 宣布推出Really Simple Licensing（RSL），对robots.txt进行了一次升级，允许网站发布者在 robots.txt 中明确设置 AI 爬虫的使用条款，例如：

AI-Commercial: license-required

RSL 标志着 robots.txt 从“爬虫礼貌手册”升级成了“产权声明”，它不阻止AI，而是想让AI回到一个可以谈条件，讲规则的世界。

那些巨头们会不会遵守RSL呢？让我们拭目以待吧！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴