DeepSeek、月之暗面、MiniMax被点“非法提取”，它们做错了吗? | 电厂|claude|deepseek|kimi|大模型|月之暗面|美国

记者董温淑

编辑高宇雷

当地时间2月23日，美国大模型公司Anthropic发布官方声明，称旗下大模型Claude遭到了中国模型企业DeepSeek（深度求索）、Moonshot（月之暗面）、MiniMax（稀宇科技）的“非法提取（illicitly extract）”。

2026开年不到3个月，这已是国产模型第二次陷入此类争议。2月上旬流出的一份OpenAI备忘录曾写道，DeepSeek正借助ChatGPT及其他美国领先AI模型来进行自身训练。

而本次Anthropic则披露了更多数据，据称三家中国企业以约 2.4万个欺诈账户与Claude进行了超1600万次互动，并以这些对话信息作为训练素材、改进了国产模型的性能。

点名三家企业隔天，Anthropic即开展了一场直播，展示Claude的最新能力。

与此同时，受到指控的国产三小龙则一片“静悄悄”。迄今，DeepSeek、MiniMax、MoonShot对此均无回应。

三小龙撞上最“MAGA”的美国大模型

根据Anthropic声明，DeepSeek、Moonshot、MiniMax所采用的技术手段名为“蒸馏（distill）”。

这种模型训练手段可追溯至2015年，最早由诺奖得主、有“深度学习教父”之称的Geoffrey Hinton及其团队提出。

根据Anthropic指控，在蒸馏过程中，Claude被作为“教师模型”，DeepSeek、Moonshot、MiniMax通过与Claude进行大量交互，获得输出概率分布等信息。这些信息进而成为了DeepSeek等学生模型的模型训练素材、使学生模型能够以较小的数据样本迅速学习“教师”的行为。

图/视觉中国

就职北京一家大模型企业的Lulu告诉电厂：“蒸馏本身是常见的让模型快速进化的手段。借助这个过程，蒸馏模型可以在短时间内迅速逼近被蒸馏模型的智力边界，理论上得到的学生模型参数量也较小、推理速度更快。”

如其所言，顶尖的大模型厂商、AI实验室常常在自研大版本模型的基础上，蒸馏出更小版本模型。比如阿里巴巴团队就在Qwen2大模型发布（2024年6月7日）5个月后，蒸馏出了DistilQwen2。

但除了自行蒸馏之外，许多大模型都将用户或竞品对自家模型的蒸馏定义为“窃取智能”的行为，并在服务条款中明确禁止了这种操作。比如Claude在其“隐私与法律”一节中就写道：“（用户）禁止在未获书面许可的情况下将这些（Claude的）输出用于训练或开发 AI 模型”。

在声明之中，Anthropic称三家中国大模型公司所进行的输入行为在“提示词的数量、结构、焦点”方面，与正常使用模式截然不同。其中，DeepSeek与Claude进行了15万次交换、Moonshot进行了340万次交换、MiniMax进行了1300万次交换。并且，Anthropic认为上述行为针对Claude最独特的三大能力——代理推理、工具使用、编码进行了有意提取。

基于这些观察，Anthropic将三家公司的行为定义为“蒸馏攻击（distillation attacks）”。

此外，长期以来Claude及其背后的公司Anthropic，都是对中国用户及客户最不“友好”的大模型公司之一。

Anthropic及其CEO Dario Amodei曾多次表态支持美国的出口管制政策。2025年9月，Claude曾特别更新其销售地区限制，专门指出将不向位于“对手国家”中国，或是中资持股超50%的海外子公司提供Claude商业访问渠道，随后还禁用了大批中国用户对Claude Code等工具的访问权限。

图/Anthropic

而在本次声明中，Anthropic也指出，其认为DeepSeek、Moonshot和MiniMax通过商业代理绕开了Claude的禁用限制，进行了违法访问，并呼吁其他美国AI企业、云服务商、政策制定者与其协同应对此类行为。

至此，这已不只是简单的技术和商业问题，更融入了地缘角斗的时代背景。

有关技术、商业、地缘的复杂博弈

尽管迄今三家中国企业尚未回应Anthropic的公开声明，此前他们已经多番陷入同类争议，也曾以不同方式进行过回应。

从2023年开始，全球闭源AI大模型“三巨头”OpenAI、Anthropic、Google陆续将禁止蒸馏的相关条款写入使用协议。在那之后，有关中美之间的“模型蒸馏”争议逐步发酵。

比如在2025年1月，曾有OpenAI研究人员称DeepSeek可能使用了OpenAI模型的输出来训练R1大模型。DeepSeek则在9月登刊Nature的论文中回应这一猜测称，其部分训练数据源于网页随机抓取，“没有故意加入OpenAI生成的合成数据”，并公开了相关技术细节。

2026年1月底，Moonshot新模型Kimi K2.5发布后，坊间也曾质疑其蒸馏自Claude。公司创始人杨植麟在一场Ask Me Anything活动中公开对此回应，否认了这种猜测。据他解释，Kimi K2.5有时会在回答中提及Claude系因：“我们在预训练中采样了最新的互联网数据，而这些数据与‘Claude’这个 token关联较多。”

Moonshot公司创始人杨植麟，图/视觉中国

但除了双方的指控与自辨，如何确证模型蒸馏行为的存在、怎么定性模型蒸馏行为、是否涉及合同法/版权法/不正当竞争等法律问题……凡此种种，都还没有明确的路径可循。

另一方面，无论中美，各家大模型训练时都从互联网中爬取了无数语料。这些语料由万千互联网用户生产，使用它们进行训练是否涉及授权问题，同样有待商榷。

“中国企业蒸馏美国模型”已被塑造为某种单向叙事。在较长一段时间内，有关“蒸馏”的争议，都将是一场悬而未决的“舆论战”。而这还将持续下去。

但值得一提的是无论产学界，对蒸馏技术的使用本身，从来都不只是某种单方行为。

中国多款领先的大模型系列都接受特定开源协议、允许蒸馏行为。

比如DeepSeek主要模型系列（如 DeepSeek-V2、V3、R1）遵循MIT许可证开源发布，允许学术研究和商业应用，用户可自由下载模型权重进行本地部署或微调；MiniMax-M1、Kimi K2、阿里巴巴旗下Qwen3等系列模型遵循Apache 2.0许可证，允许用户自由使用、修改、再发布、甚至将代码直接用于闭源商业软件，且无需支付费用等。

许多闭源模型同样受益于此。比如据市场消息，美国科技巨头Meta正秘密研发一款代号为“Avocado（牛油果）”的闭源模型，计划于今春发布。

曾有知情人士透露，Meta在训练Avocado时，会使用包括Qwen在内的多家第三方模型进行蒸馏。

从这一角度而言，对模型蒸馏的争议也引出了模型开闭源路线之争的老问题。

在这个缺乏产业秩序的新市场，技术先进程度不再是唯一的发展追求，生态、人才、法律、地缘等因素被一一叠加，竞争逻辑的维度不断丰富。相较以往，每个市场玩家都更加迫切，希望筑好技术竞争力的围墙，但也逃不开其他参与者的审视与围观。