7月27日,2024年,多家网站指责AI创业公司Anthropic无视其反爬虫规则,对其网站进行了大规模的数据抓取。据iFixit CEO Kyle Wiens透露,Anthropic无视了该网站禁止使用其内容训练AI模型的政策。同时,Freelancer首席执行官Matt Barrie向《The Information》表示,Anthropic的ClaudeBot是迄今为止最激进的爬虫,其网站在四小时内收到了来自Anthropic爬虫的350万次访问,远超其他AI爬虫的访问量。

面对这一情况,Freelancer最初试图拒绝爬虫的访问请求,但最终不得不完全屏蔽Anthropic的爬虫,以防止对网站速度和收入造成负面影响。iFixit方面,Wiens表示,由于Anthropic的活动,网站的高流量警报在凌晨3点被触发,导致团队成员被唤醒。在iFixit的robots.txt文件中添加了一行特定于Anthropic爬虫的禁用指令后,Anthropic的爬虫停止了对该网站的抓取。

Anthropic回应称,他们尊重robots.txt协议,并在iFixit实施禁令后遵守了这一信号。此外,该公司表示正在调查此事件,以确保其爬虫活动对同一域名的访问频率最小化,从而减少干扰。AI公司通常使用爬虫收集网站内容,用于训练其生成式AI技术,但此举已引发多起版权侵权诉讼。为避免更多法律纠纷,OpenAI等公司已开始与出版商和网站达成协议,包括News Corp、Vox Media、Financial Times和Reddit等。iFixit的Wiens也表达了愿意就商业用途的内容授权与Anthropic进行对话的意愿。

参考链接:
https://www.engadget.com/websites-accuse-ai-startup-anthropic-of-bypassing-their-anti-scraping-rules-and-protocol-133022756.html