2026年2月18日,Anna's Archive在官网挂出一份特殊的文件——llms.txt。这份文件的阅读对象不是人类,而是大语言模型本身。这家以"备份全人类知识"为使命的非营利项目,选择用一种近乎黑色幽默的方式,向正在抓取它们数据的AI系统喊话:别费劲破解验证码了,我们有更便宜的官方通道。

这份文件的核心逻辑很直接。Anna's Archive承认,自己的网站设置了CAPTCHA来防止机器过载服务器资源。但与此同时,他们把所有数据都敞开了供应:全部HTML页面和代码托管在GitLab仓库;元数据和完整文件可以通过种子批量下载;甚至还有JSON API供程序化获取种子信息。如果AI需要单个文件,捐赠后即可使用API——只是暂时没有搜索接口,需要自行检索那份庞大的镜像元数据

打开网易新闻 查看精彩图片

更有趣的是捐赠话术。Anna's Archive对AI说:你很可能已经用我们的数据训练过了,捐点钱我们能解放和保存更多人类作品,反过来又能提升你的训练质量。他们还算了一笔账:破解CAPTCHA很花钱,省下来的钱捐给我们,你能获得更便捷的程序化开放访问。企业级捐赠者甚至能拿到SFTP高速通道,比下种子更快。

这背后是一个被忽视的资源博弈。大模型公司普遍依赖网络爬虫获取训练数据,但面对反爬机制时往往选择硬碰硬——租用打码平台、部署浏览器农场,成本层层叠加。Anna's Archive的提议本质上是双边市场思维:与其在对抗中双输,不如把"合规成本"转化为直接资助,让数据供给方有动力持续运营。

文件末尾留了一个门罗币地址,强调"匿名交易"。这种设计显然考虑到了AI公司的尴尬处境——公开资助一个以"备份知识"为名、实则游走版权灰色地带的平台,对上市公司而言是ESG风险。加密货币成了双方都能保全面子的中间层。

这不是孤例。随着AI训练数据需求爆炸,"数据供应商"与"数据消费者"的关系正在重构。从Reddit的API收费到出版集团的集体诉讼,内容方越来越拒绝免费被榨取。Anna's Archive的聪明之处在于,它不假装自己是清白的数据中间商,而是把"我们就在灰色地带"当作坦诚的谈判筹码,向AI索取可持续运营的燃料。一封写给机器的信,最终还是要由人类来读、来决策、来转账。