Anthropic指责中国实验室抓取数据后，一场开源反击战意外爆发|anthropic|中国实验室|开源反击战|算法

快速阅读： Anthropic指责中国实验室抓取Claude数据后，有人开源了一个名为DataClaw的工具，允许用户上传自己与Claude的对话记录用于训练其他模型，24小时内获得363颗GitHub星标。这场争议背后是AI行业一个根本性矛盾：用公开数据训练出的模型，能否阻止他人用同样的方式复制自己？

这件事的导火索是最近网传Claude Sonnet 4.6在中文环境下自称是DeepSeek-V3，引发了一轮关于中国AI实验室是否在抓取Claude输出数据的讨论。Anthropic随后公开表达不满。

然后就有人把梯子扔回去了。DataClaw的README写得很直接：“Anthropic用免费共享的信息构建了他们的模型，然后推行越来越严格的数据政策来阻止别人做同样的事。这就像爬上梯子后把它抽走。DataClaw把梯子扔回去。”马斯克在下面回复了一个“Cool”。

不过有网友提醒，这个工具的自动脱敏功能并不可靠。有人去Huggingface上检查用户上传的对话记录，发现第一条就包含有效的API密钥，还有其他可识别的个人信息。技术上的隐患是一回事，但更值得讨论的是这件事背后的逻辑困境。

有观点认为Anthropic是“cosplay道德”。也有人替他们辩护：训练AI属于变革性使用，产出由专有算法定义，这是共识。但反驳很快就来了：训练LLM的流程现在已经是公开知识，每家公司可能有一些“秘密酱料”，但整体而言并不神秘。更关键的是，这些公司当初训练模型时也没问过数据创作者的许可，甚至有人指出他们用过种子下载的版权材料。

这就是问题所在：如果你认为用公开数据训练模型是合理的，那别人用你的输出做同样的事，凭什么不行？如果AI生成的回复归用户所有，用户当然可以拿去训练别的模型；如果归Anthropic所有，那用Claude Code写的所有软件是不是也归他们？这是个怎么回答都很尴尬的问题。

有观点认为这可能是一个“史翠珊效应”的经典案例，Anthropic本可以什么都不说，现在反而把事情闹大了。也有人指出，这场争论可能会让Anthropic像OpenAI和Gemini一样隐藏思维链输出。Dario之前一直没这么做，部分是出于AI安全的考虑，但现在可能被迫改变。

有一点倒是很清醒的提醒：用户把通用数据分割上传后，反而让数据变得更容易被识别，因为对话被切分成了个人化的信息块，格式还很规整。

关于ASI是否应该公开的讨论也被带起来了，但这个方向有点跑偏。眼下的问题不是超级智能，而是这个产业的底层叙事：谁有资格定义规则，谁有资格打破规则。

简评：

“我偷的是知识，你偷的是我”——这大概是AI时代最精准的双标宣言。 Anthropic的愤怒让我想起一个古老的笑话：强盗抢了一袋金币，然后报警说有人偷了他的金币。当年这些公司扫荡互联网时，没人问过博主、作家、程序员是否同意；现在轮到自己的输出被“采集”，突然就发现了数据伦理的重要性。最讽刺的不是被反噬，而是被用同样的逻辑反噬。 DataClaw那句“把梯子扔回去”堪称年度最佳回旋镖。这场争论真正揭示的是：在AI行业，道德标准的弹性取决于你站在食物链的哪一端。

www.reddit.com/r/singularity/comments/1rezwr9/after_anthropic_accused_chinese_labs_of_scraping/