AI创业公司Anthropic被指违规爬取网站数据，无视反爬虫规则

龙剑秀南

2024-07-28 00:20 ·上海

7月27日，2024年，多家网站指责AI创业公司Anthropic无视其反爬虫规则，对其网站进行了大规模的数据抓取。据iFixit CEO Kyle Wiens透露，Anthropic无视了该网站禁止使用其内容训练AI模型的政策。同时，Freelancer首席执行官Matt Barrie向《The Information》表示，Anthropic的ClaudeBot是迄今为止最激进的爬虫，其网站在四小时内收到了来自Anthropic爬虫的350万次访问，远超其他AI爬虫的访问量。

面对这一情况，Freelancer最初试图拒绝爬虫的访问请求，但最终不得不完全屏蔽Anthropic的爬虫，以防止对网站速度和收入造成负面影响。iFixit方面，Wiens表示，由于Anthropic的活动，网站的高流量警报在凌晨3点被触发，导致团队成员被唤醒。在iFixit的robots.txt文件中添加了一行特定于Anthropic爬虫的禁用指令后，Anthropic的爬虫停止了对该网站的抓取。

Anthropic回应称，他们尊重robots.txt协议，并在iFixit实施禁令后遵守了这一信号。此外，该公司表示正在调查此事件，以确保其爬虫活动对同一域名的访问频率最小化，从而减少干扰。AI公司通常使用爬虫收集网站内容，用于训练其生成式AI技术，但此举已引发多起版权侵权诉讼。为避免更多法律纠纷，OpenAI等公司已开始与出版商和网站达成协议，包括News Corp、Vox Media、Financial Times和Reddit等。iFixit的Wiens也表达了愿意就商业用途的内容授权与Anthropic进行对话的意愿。

参考链接:
https://www.engadget.com/websites-accuse-ai-startup-anthropic-of-bypassing-their-anti-scraping-rules-and-protocol-133022756.html