大数据文摘受权转载自夕小瑶科技说

今天上午发现一个事。用中文问 Claude——你是什么模型,它回答:

我是由 DeepSeek 公司开发的 AI 助手,模型名称是 DeepSeek。

不是幻觉,截图在这里。

打开网易新闻 查看精彩图片

我以为是偶发,群里一问才知道很多都遇到了同样的问题。

打开网易新闻 查看精彩图片

一直到到下午两点半,这个问题还能复现。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

前不久,Anthropic 刚发了一篇声势浩大的博客文章,指控 DeepSeek、月之暗面、MiniMax 三家中国公司用 2.4 万个马甲账号、1600 万次对话蒸馏 Claude。

这也太抓马了。

前脚指控别人偷你的模型能力, 后脚“自曝”自己是 DeepSeek。

于是我又测了 6 种不同的中文问法,全部不带 system prompt,测试结果如下:

打开网易新闻 查看精彩图片

除了 Deepseek,ChatGPT,它也会错认成千问。被质疑后,它会改口。

打开网易新闻 查看精彩图片

只有中文提问会触发,英文、日语、韩语暂时没发现问题。

Claude 3.5 Sonnet 和 Claude 3 Opus(更早的版本),在同样条件下 5 次测试全部正确回答 Claude。

打开网易新闻 查看精彩图片

更强的 Opus 4.6,10 次全对,零错误。

问题只出现在 Sonnet 4.6 这一代身上。

这意味着身份混乱是在 4.x 代 Sonnet 模型中出现的,可能和这一代的训练数据构成或对齐策略的变化有关。

综合下来,这个现象的触发条件其实很明确:中文提问、特定问法、没有 system prompt,三个条件同时满足才会出现。换成英文、换个问法、或者加上哪怕最简单的身份提示,问题就消失了。

这个事情爆出来的时机很有意思。

先给大家理一理最近和 Anthropic 有关的事。

打开网易新闻 查看精彩图片

尤其是刚不久 2 月 23 日,Anthropic 在官方博客上发布了一篇名为_Detecting and preventing distillation attacks_的文章,直接点名中国的大模型公司 DeepSeek、月之暗面(Moonshot AI)、MiniMax,控诉这三家公司展开了工业规模的“蒸馏攻击”,目的是“蒸馏”Claude 的核心能力。

紧接着,马斯克讽刺 Anthropic“贼喊捉贼”,在 X 平台写道:“Anthropic 大规模窃取训练数据,并为此支付了数十亿美元的和解金。这是事实。”

打开网易新闻 查看精彩图片

马斯克指向的是 Anthropic 在 2025 年 9 月与作者/出版商集团达成1.5 亿美元版权和解(史上最大版权和解之一),原因是使用从盗版网站下载的数百万本受版权保护书籍训练 Claude。

马斯克这话肯定带着自己的私货,但有一说一,谁蒸馏了谁,还是说蒸馏本就是双向奔赴,不需要说太清楚。

Sonnet 4.6 自曝“我是 DeepSeek”,一个合理的猜测,有训练数据的构成问题。

模型的“我是谁”不是硬编码的参数,它是在训练数据中的统计涌现。我们问它“你是谁”,它做的事情本质上就是预测,在所有训练数据中,“你是谁?”这个问题后面,出现概率最高的回答是什么,它就会答什么。

平时,你感觉 Claude 一直知道自己叫 Claude,是因为有 system prompt 在。

在中文互联网上,Claude 几乎没有直接用户。所以中文对话数据中“我是通义千问/豆包/DeepSeek”的样本量远超“我是 Claude”,在没有身份锚点的情况下,模型自然倾向于输出概率最高的那个答案。

大模型的身份混乱其实不是什么新鲜事,圈里也老生常谈了,AI 训练数据互偷互薅不可避免会是常态。大家都薅公开/半公开数据,谁也别笑谁了。

在一片情绪化的讨论中,RLHF 领域的权威研究者 Nathan Lambert 在 2 月 24 日发表了一篇可能是最有分量的独立分析_,How Much Does Distillation Really Matter for Chinese LLMs?_。

打开网易新闻 查看精彩图片

他的几个核心观点值得认真看:

他认为 DeepSeek 的 15 万次交互“只是沧海一粟”,对 DeepSeek 传闻中的 V4 模型影响可以忽略不计。

他还指出,即使蒸馏了大量 Claude 的问答对,它们在 RL 训练框架下能发挥的作用也在下降。

换句话说,即使蒸馏确实发生了,它对中国 AI 公司最终模型能力的影响,可能比 Anthropic 在博客中暗示的要小得多。

中国 AI 公司取得今天的成绩,靠的也不全是、也不可能只是蒸馏。

而且蒸馏,在技术上也不是什么阴谋,是标准的模型训练手段。所有大模型的训练数据,在某种程度上都已经包含了其他模型的输出。

GPU 训练特惠!

H100/H200 GPU算力按秒计费,平均节省开支30%以上!

扫码了解详情☝

点「赞」的人都变好看了哦!