快速阅读: Anthropic指责中国实验室抓取Claude数据后,有人开源了一个名为DataClaw的工具,允许用户上传自己与Claude的对话记录用于训练其他模型,24小时内获得363颗GitHub星标。这场争议背后是AI行业一个根本性矛盾:用公开数据训练出的模型,能否阻止他人用同样的方式复制自己?

打开网易新闻 查看精彩图片

这件事的导火索是最近网传Claude Sonnet 4.6在中文环境下自称是DeepSeek-V3,引发了一轮关于中国AI实验室是否在抓取Claude输出数据的讨论。Anthropic随后公开表达不满。

然后就有人把梯子扔回去了。DataClaw的README写得很直接:“Anthropic用免费共享的信息构建了他们的模型,然后推行越来越严格的数据政策来阻止别人做同样的事。这就像爬上梯子后把它抽走。DataClaw把梯子扔回去。”马斯克在下面回复了一个“Cool”。

打开网易新闻 查看精彩图片

不过有网友提醒,这个工具的自动脱敏功能并不可靠。有人去Huggingface上检查用户上传的对话记录,发现第一条就包含有效的API密钥,还有其他可识别的个人信息。技术上的隐患是一回事,但更值得讨论的是这件事背后的逻辑困境。

有观点认为Anthropic是“cosplay道德”。也有人替他们辩护:训练AI属于变革性使用,产出由专有算法定义,这是共识。但反驳很快就来了:训练LLM的流程现在已经是公开知识,每家公司可能有一些“秘密酱料”,但整体而言并不神秘。更关键的是,这些公司当初训练模型时也没问过数据创作者的许可,甚至有人指出他们用过种子下载的版权材料。

这就是问题所在:如果你认为用公开数据训练模型是合理的,那别人用你的输出做同样的事,凭什么不行?如果AI生成的回复归用户所有,用户当然可以拿去训练别的模型;如果归Anthropic所有,那用Claude Code写的所有软件是不是也归他们?这是个怎么回答都很尴尬的问题。

有观点认为这可能是一个“史翠珊效应”的经典案例,Anthropic本可以什么都不说,现在反而把事情闹大了。也有人指出,这场争论可能会让Anthropic像OpenAI和Gemini一样隐藏思维链输出。Dario之前一直没这么做,部分是出于AI安全的考虑,但现在可能被迫改变。

有一点倒是很清醒的提醒:用户把通用数据分割上传后,反而让数据变得更容易被识别,因为对话被切分成了个人化的信息块,格式还很规整。

关于ASI是否应该公开的讨论也被带起来了,但这个方向有点跑偏。眼下的问题不是超级智能,而是这个产业的底层叙事:谁有资格定义规则,谁有资格打破规则。

简评:

“我偷的是知识,你偷的是我”——这大概是AI时代最精准的双标宣言。 Anthropic的愤怒让我想起一个古老的笑话:强盗抢了一袋金币,然后报警说有人偷了他的金币。当年这些公司扫荡互联网时,没人问过博主、作家、程序员是否同意;现在轮到自己的输出被“采集”,突然就发现了数据伦理的重要性。最讽刺的不是被反噬,而是被用同样的逻辑反噬。 DataClaw那句“把梯子扔回去”堪称年度最佳回旋镖。这场争论真正揭示的是:在AI行业,道德标准的弹性取决于你站在食物链的哪一端。

www.reddit.com/r/singularity/comments/1rezwr9/after_anthropic_accused_chinese_labs_of_scraping/