1993年,互联网还很小。

我每天早上都会收到一个叫做《what’s new on the web》的邮件,上面会列出所有新出现的网站。

没错,是所有的新网站。

我常常一边喝咖啡,一边浏览这些网站,通常10点钟之前就能看完。

打开网易新闻 查看精彩图片

无聊的时候,我开始自学Perl,尝试写网络爬虫,这些爬虫是有用的,比如可以用来做网站目录,统计文档数,检查死链,网页评价大小等等。

在测试的时候,我选择了一个极为愚蠢的起始URL:一个讲网络爬虫的知识的网站。

这个网站运行在一家非常小的公司的服务器上,而且只有一条14.4K的专线。(别觉得14.4K很小,我们公司200人,也就租了一个64K的专线)。

我的爬虫无意间进行了一次拒绝服务攻击(DoS),把那个网站搞垮了。

负责那个网站的人叫马丁(Martijn Koster) ,他很生气,立刻要求我停止那些疯狂的请求。

马丁不是一般人,他发明了世界上第一个Web搜索引擎AliWeb。

打开网易新闻 查看精彩图片

当他意识到网络爬虫可能泛滥的时候,他发明了一套标准的流程:“机器人排除协议”(Robots Exclusion Protocol)。

当你的网络机器人访问一个新网站时,需要先去找一个叫 robots.txt 的文件,解析它,然后避开里面列出的目录或文件。

例如,如果robots.txt长这个样子:

User-agent: googlebot

Disallow: /private/

它的意思是对于googlebot这个网络爬虫,不允许抓取/private这个目录下的内容。

我觉得我可能写了第一个遵守 robots.txt 协议的爬虫,但可以肯定的是,我是那个逼得它被发明出来的蠢蛋。

0 1

君子协定,神奇运行30年

上面的故事来自查尔斯·斯特罗斯 (Charles Stross) 的自述,非常生动地讲述了robots.txt被发明的过程。

它并不是一个委员会设计出来的规范,而是早期的互联网用户为了解决问题被迫发明的方法。

马丁只是把这个办法发到了WWW-Talk的邮件列表中,然后成员们讨论robots.txt的基本语言和结构,最后达成一致,所有人都开始支持robots.txt。

它不像TCP/IP,你不支持就无法联网,它是一个君子协定,是否遵守完全看网络爬虫编写者的意愿。

这有点儿像在你敞开的房间门口立上一块牌子:禁止入内。

打开网易新闻 查看精彩图片

网络爬虫/机器人看到了,就真的不进入这个房间了,不管这个房间里有多少宝贝。

让人惊奇的是,在长达30年的时间内,robots.txt运转良好。

为什么它能活下来?

在早期,原因只有一个:不守规矩的机器人,会被全网封杀

在那个小圈子里,“流氓机器人”的IP会被拉黑,域名会被公开点名,这是致命的名誉风险。

0 2

最遵守robots.txt的公司赢了

时间很快来到90年代末,互联网迅猛扩张,海量的网站一个上午绝对是看不完了。

那些藏在世界各地的网站,不通过搜索引擎,无论如何也是找不到的。

于是,搜索引擎和网站之间就robots.txt达成了完美的默契。

网站允许Google爬虫抓取自己的网页,这样它们就可能展示到搜索结果中,给自己带来巨大的曝光流量。

而Google也严格遵循robots.txt的规定,将流量导致其他网站,同时在搜索结果中投放广告。

这是一次极为成功的价值交换:你让我爬数据,我给你流量。

打开网易新闻 查看精彩图片

虽然robots.txt此时已经成为事实标准,但世界那么大,总有不遵守robots.txt的公司。

尤其是那些信息聚合网站,无视robots.txt的约定,从别人的网站抓取数据(例如新闻,产品信息),聚合后放到自己的网站上。

例如美国的Bidder's Edge(简称BE),它建立了一个拍卖信息的聚合网站,专门从包括eBay在内的各个拍卖网站去收集信息,这样BE的用户就可以轻松搜索互联网上的拍卖信息,而无需访问单独的拍卖网站。

这eBay肯定不能忍,由于robots.txt是个君子协定,它只好去限制BE爬虫的IP地址,但是BE通过代理服务器,绕过了IP的限制。

eBay没办法,最后一纸诉状把BE告上了法庭,2000年5月,法院以非法入侵为由,禁止BE以任何自动手段抓取eBay服务器的数据。

0 3

君子协议被撕毁

2017年,一个致力于保存互联网的网站“互联网档案馆”,干了一件震动圈子的事情:不再遵守robots.txt。

互联网档案馆的理由很直接:robots.txt是为了“搜索”设计的,我的目标是保存所有网页的快照,保存人类的互联网文明,所以没必要遵守。

不过这件事儿没有引起太大波澜,因为互联网档案馆是个非盈利的机构,它即使不遵守robots.txt,把所有数据都爬了下来,但依然免费开放,不会拿这些数据去盈利。

但是对于AI公司来说,一切都不一样了。

如果你开了一家AI公司,严格遵守robots.txt,而你的竞争对手通过换UA/IP,偷偷地多抓取一些,结果会如何呢?

你公司的模型由于训练数据少,自然比不上竞争对手。

用户会因为你的道德规范高而支持你吗?不会,他们肯定都跑到竞争对手那里去了。

“如果我守规矩,而对手不守,我就输了,所以我也不能遵守”。

打开网易新闻 查看精彩图片

抓数据其实也没啥,要命的是流量无法回流到网站了:

(1)网站内容被吸干,流量消失。

(2)AI直接给出答案,用户再也不会去原来的网站。

(3)内容的创作者,丧失署名权,没有分成。

所有的网站都感受到脊背发凉:AI不是给我带来流量的,而是来取代我的。

所以,一定要屏蔽掉那些AI公司的爬虫!

2023 年,Originality.AI统计发现,在访问量最高的 1000 个网站中,有 306 个在其 robots.txt 文件中屏蔽了 OpenAI 的 GPTBot,85 个屏蔽了谷歌的 Google-Extended。

BBC 和 《 纽约时报》 等新闻网站普遍禁止访问 GPTBot。2023 年,博客平台 Medium 宣布将禁止所有人工智能网络爬虫访问。

OpenAI也摆出了高姿态,说要遵守robots.txt,自家爬虫的名字就叫GPTBot,它还发布并推广了一个页面,“贴心”地教人们如何在robots.txt中屏蔽它。

但是,这一切发生在“强大的底层模型已经训练完成之后”。

换句话说:“你的模型已经吃饱了,你才开始讲礼貌?” 这谁受得了?

robots.txt 是建立在“善意 + 搜索回流”之上的制度,而 AI 打破了这三点。

0 4

尾声

robots的结构性缺陷,在AI时代彻底暴露。

2025 年,非营利组织 RSL Collective 宣布推出Really Simple Licensing(RSL),对robots.txt进行了一次升级,允许网站发布者在 robots.txt 中明确设置 AI 爬虫的使用条款,例如:

AI-Commercial: license-required

RSL 标志着 robots.txt 从“爬虫礼貌手册”升级成了“产权声明”,它不阻止AI,而是想让AI回到一个可以谈条件,讲规则的世界。

那些巨头们会不会遵守RSL呢? 让我们拭目以待吧!