打开网易新闻 查看精彩图片

一个开源项目让全网网站主集体失眠。不是因为它不好用,是因为它太好用了——好用到暴露出整个互联网正在崩塌的底层协议。

2025年3月,GitHub上一个叫Anubis的工具突然爆火。开发者XeroxZed原本只是想保护自己的个人博客,结果48小时内星标破万,Hacker News热榜第一。这个用古埃及死神命名的项目,正在把AI公司的爬虫逼入一场算力消耗战。

「这相当于给每个访客发一张数学考卷」

「这相当于给每个访客发一张数学考卷」

Anubis的核心机制极其朴素:访客打开网页前,浏览器必须先解一道密码学难题。对个人用户,解题时间不到1秒,几乎可以忽略。但对每秒发起数千请求的爬虫集群,这道题的算力成本会指数级爆炸。

技术社区有人算过账:假设某AI公司每天爬取1000万个页面,启用Anubis后,其服务器成本将从每月约2000美元飙升至8万美元。40倍的涨幅,足够让任何数据采购经理重新评估ROI。

但这道题的真正杀伤力不在技术层面,而在社会契约的撕裂。

爬虫战争:从「君子协议」到算力对轰

爬虫战争:从「君子协议」到算力对轰

互联网早期有个不成文的规矩:robots.txt文件告诉爬虫哪些能爬、哪些不能,大家心照不宣地遵守。这个君子协议运转了30年,直到大模型训练需求把数据变成战略资源。

打开网易新闻 查看精彩图片

2023年开始,头部AI公司的爬虫行为急剧失控。OpenAI的GPTBot、Anthropic的ClaudeBot、Google的Google-Extended,加上无数未标识的匿名爬虫,把中小网站的服务器当成免费自助餐。Cloudflare 2024年报告显示,AI爬虫流量占全球HTTP请求的39%,其中超过半数无视robots.txt。

网站主的反击手段一度很狼狈:封IP段,对方换代理;上验证码,被机器学习攻破;限流,误伤正常用户。Anubis的出现改变了游戏规则——它不分辨你是谁,只计算你愿为这次访问付出多少算力。

XeroxZed在项目文档里写得很直白:「这是妥协方案。我们真正想做的是浏览器指纹识别,通过字体渲染、Canvas指纹等技术区分真人和爬虫,但那需要更多开发时间。」

开源社区的「核扩散」焦虑

开源社区的「核扩散」焦虑

Anubis的GitHub Issues区成了大型诉苦现场。一位维护着月活500万社区网站的开发者留言:「我们上周被某家AI公司的爬虫搞到宕机3小时,用户骂声一片。部署Anubis后,CPU占用率直接降了60%。」

但更多人担心的是反噬效应。爬虫工程师开始研究如何绕过Anubis的Proof-of-Work(工作量证明)机制,有团队在暗网出售「Anubis兼容爬虫」,号称内置了针对该算法的优化求解器。这场猫鼠游戏的成本,最终会被计入AI公司的训练预算,转嫁到模型订阅费上。

更隐蔽的风险是用户体验的慢性毒药。Anubis要求现代JavaScript特性,这意味着Tor浏览器用户、隐私插件使用者、部分老旧设备会被误伤。项目文档坦承:「无JS解决方案正在开发中」,但时间表未定。

一位前端工程师在讨论区打了个比方:「这就像小区门禁从刷卡升级成人脸识别,确实挡住了大部分小偷,但也让戴口罩的住户进不了门。」

打开网易新闻 查看精彩图片

协议层的结构性溃败

协议层的结构性溃败

Anubis的流行暴露了一个被长期回避的事实:HTTP协议在设计之初假设了「请求者善意」。这个假设在Web 1.0时代成立,在搜索引擎时代勉强维持,在大模型时代彻底破产。

互联网档案馆(Internet Archive)工程师在Mastodon发文称,他们正在评估Anubis,但顾虑重重。「我们的Wayback Machine需要爬取历史网页,如果全网部署这类工具,数字遗产的保存将面临系统性风险。」

这种张力正在撕裂技术社区。EFF(电子前沿基金会)内部也有分歧:一派认为网站主有权自卫,另一派担忧Proof-of-Work机制会被滥用为付费墙的前奏——「先交算力税,再交订阅费」。

XeroxZed本人似乎对争议有所预料。项目README里埋了一句脚注:「Anubis是古埃及的亡灵守护神,负责用天平称量死者的心脏。我们也在称量:你的请求,值得服务器付出多少资源?」

当「免费互联网」成为历史名词

当「免费互联网」成为历史名词

截至发稿,Anubis已被超过1.2万个网站部署,包括多个知名开源文档站点和独立博客。它的成功正在催生更多变体:有人开发了基于GPU的「重型Anubis」,解题难度可调;有人提议结合区块链,让算力贡献兑换访问积分。

这些方案无论技术路线如何分歧,共享同一个前提:无条件的开放访问已经终结。未来的互联网可能是分层的——人类用户走快速通道,机器请求付算力或付费,灰色地带由AI公司的「白名单谈判」决定。

一位部署了Anubis的独立开发者在Twitter写道:「我花了十年写博客,从未想过有一天需要给读者出数学题。但当我看到服务器日志里每秒3000次的爬虫请求时,我突然理解了为什么古埃及人需要死神。」

你的浏览器最近有没有遇到过类似的「数学考卷」?如果这种机制扩散到全网,你愿意为一次网页访问等待多少秒?