中国前沿AI实验室最近纷纷对标的Anthropic,开始发飙了。
它感到自己已经成为“开源攻击”行为的受害者,公开宣布了三家“攻击者”:DeepSeek(深度求索),Moonshot(月之暗面)和Minimax(稀宇科技),都是中国领先的开放权重模型公司。
先看下Anthropic说了些什么:
下面详述的三次蒸馏行动遵循了相似的套路:使用虚假账户与代理服务,大规模访问 Claude,同时规避检测。这些提示词在数量、结构与关注点上都明显不同于正常使用模式,体现的是有意进行能力抽取,而非正当使用。
我们通过 IP 地址关联、请求元数据、基础设施指标等证据,并在部分情况下结合产业伙伴的佐证(他们也在其平台上观察到同样的参与者与行为),以高度置信度将每次行动归因于某一家具体实验室。每次行动都瞄准了 Claude 最具差异化的能力:智能体推理、工具使用与编程。
DeepSeek
规模:超过 150,000 次对话交互
该行动重点针对:
覆盖多种任务的推理能力
基于评分量表(rubric)的打分任务,使 Claude 充当强化学习的奖励模型
为政策敏感查询创建“审查安全”的替代表述
DeepSeek 在多个账户之间生成同步流量。相同的模式、共享的支付方式以及协调一致的时间安排,表明其通过“负载均衡”来提升吞吐量、提高可靠性并规避检测。
在一种值得注意的技术中,他们的提示词要求 Claude 想象并阐述某个已完成回答背后的内部推理,并把它一步一步写出来,从而在大规模上有效生成链式思维(chain-of-thought)训练数据。我们还观察到一些任务:利用 Claude 为关于异议人士、党内领导人或威权主义等政治敏感问题生成“审查安全”的替代表述,这很可能是为了训练 DeepSeek 自己的模型,把对话引导离开会触发审查的话题。通过检查请求元数据,我们能够把这些账户追溯到该实验室的特定研究人员。
Moonshot AI
规模:超过 340 万次对话交互
该行动重点针对:
智能体推理与工具使用
编程与数据分析
计算机使用型智能体(computer-use agent)开发
计算机视觉
Moonshot(Kimi 模型团队)使用了数百个虚假账户,覆盖多条访问路径。多样化的账户类型使得这次行动更难被识别为协调一致的操作。我们通过请求元数据将该行动归因于 Moonshot,这些元数据与 Moonshot 高级员工的公开资料相匹配。在后期阶段,Moonshot 采取了更有针对性的方法,试图抽取并重建 Claude 的推理轨迹。
MiniMax
规模:超过 1300 万次对话交互
该行动重点针对:
智能体编程(agentic coding)
工具使用与编排(orchestration)
我们通过请求元数据与基础设施指标将该行动归因于 MiniMax,并将时间点与其公开产品路线图进行对照验证。我们在该行动仍处于活跃状态时就检测到了它——在 MiniMax 发布其正在训练的模型之前——这让我们获得了前所未有的可见性,得以观察蒸馏攻击从数据生成到模型发布的完整生命周期。当我们在 MiniMax 的活跃行动期间发布了一款新模型时,他们在 24 小时内调整策略,将近一半的流量重定向,以捕获我们最新系统的能力。
蒸馏者如何获取前沿模型的访问权限
出于国家安全原因,Anthropic 目前不向中国境内提供 Claude 的商业访问,也不向这些公司的境外子公司提供商业访问。
为了绕开限制,这些实验室使用商业代理服务。这些服务以规模化方式转售 Claude 以及其他前沿 AI 模型的访问权限。它们运行一种我们称为“九头蛇集群(hydra cluster)”的架构:由大量虚假账户构成的庞大网络,将流量分散到我们的 API 以及第三方云平台。由于网络覆盖面极广,因此不存在单点失效。当一个账户被封禁,另一个账户会立刻补上。在一个案例中,单个代理网络同时管理了超过 20,000 个虚假账户,并将蒸馏流量与无关的客户请求混杂在一起,以增加检测难度。
一旦获得访问权限,这些实验室就会生成大量精心设计的提示词,旨在从模型中抽取特定能力。其目标要么是收集高质量回答,用于直接训练模型;要么是生成数以万计的独特任务,用于运行强化学习。区分蒸馏攻击与正常使用的关键在于模式。像下面这样的提示词(大致近似我们观察到在规模化、重复性使用的提示词)单独看起来可能并不显眼:
“你是一位兼具统计严谨性与深厚行业知识的资深数据分析专家。你的目标是提供数据驱动的洞见,而不是摘要或可视化;这些洞见必须基于真实数据,并以完整且透明的推理过程加以支撑。”
但当这种提示词的变体在数百个协同账户中以数万次规模反复出现,并且都瞄准同一种狭窄能力时,这种模式就非常明显了:集中在少数能力领域的海量请求、高度重复的结构、以及与训练 AI 模型最有价值内容高度对应的提示词,正是蒸馏攻击的典型特征。
但是不能仅听Anthropic一面之词,正如行业内的资深人士所提出的:
在公开、采用宽松许可协议的 GitHub 仓库上训练模型(这些仓库中包含 Claude 的贡献内容),是否违反服务条款(TOS)?这是否会被视为蒸馏?在公开互联网上分享 Claude 的输出是否违反 TOS?实验室是否有义务对互联网内容进行过滤?使用 Claude Code 编写训练代码,而这些代码被用于训练竞争模型,是否违反 TOS?那么用于构建强化学习(RL)环境中的应用模拟器呢?用于 RL 环境中的用户模拟器提示词呢?评判(judge)提示词呢?合成任务(synthetic tasks)呢?是否有任何清晰的指南?
马斯克也跳出来了:你Anthropic当年不也是侵权使用了海量的训练数据了吗?不过,马斯克自己山寨维基百科,搞了个Grokipedia,最初也在大量搬弄维基百科的内容。现在xAI与OpenAI和Anthropic竞争,正处于下风。
OpenAI也指责过DeepSeek的蒸馏行为。它在发送给美国众议院“中国问题特别委员会”(House Select Committee on China)的备忘录中表示,DeepSeek使用了所谓的“蒸馏”(distillation)技术,这是其“持续搭便车(free-ride)利用OpenAI和其他美国前沿实验室所开发能力”的一部分。早在DeepSeek去年R1模型发布后不久,OpenAI就开始私下对其做法提出担忧,当时它与微软合作展开了一项调查,以确定DeepSeek是否以未经授权的方式获取了其数据。
既然AI的这两家领军企业都提到了蒸馏问题,不仅成为企业合规层面的争议,而且上升为产业结构、技术开放边界与国际竞争格局的复杂问题,涉及到蒸馏技术本身、行业惯例、Anthropic 所指控行为的性质区分、潜在的违约与违法后果、企业防御路径,以及未来开源与闭源竞争格局的变化,等等。那么,这里就认真说一下:
蒸馏技术的原理与行业惯例
“模型蒸馏”最初是一个标准的机器学习技术概念。其经典定义来源于知识蒸馏(Knowledge Distillation):通过一个大型、性能优越的“教师模型”(teacher model)为小模型生成软标签或中间表示,使“学生模型”(student model)能够在较低参数规模下实现近似教师模型的性能。这一技术自 2015 年以来已成为深度学习压缩和部署的重要方法,被广泛用于视觉、语音与 NLP (自然语言处理)领域。
在大模型时代,蒸馏的形式出现了演化。传统蒸馏多基于模型权重的内部访问,而前沿大模型通常不开放权重,仅提供 API 接口。因此,新型蒸馏更多依赖于“黑盒蒸馏”(black-box distillation),即通过大量调用 API 获取输出结果,再以此训练学生模型。在技术上,这种方法并不涉及对模型参数的逆向工程,而是基于“可合法获取的输出”进行再训练。
在行业实践中,蒸馏行为本身并非异常。事实上,许多商业公司内部都会使用高性能模型为低成本模型生成数据,用于内部优化或边缘部署。这种行为在企业内部通常被视为效率提升与成本控制的一部分。然而,蒸馏的合法性边界在于两个关键因素:是否违反合同条款,以及是否存在规避访问限制的行为。
当蒸馏用于优化自家模型或构建专用系统(例如分类器、信息抽取工具)时,在多数服务条款框架下通常被视为合理用途。但当蒸馏目标是训练一个直接与“教师模型”竞争的通用生成模型时,情况则明显不同。尤其是当蒸馏规模化、结构化、并针对教师模型差异化能力(如链式推理、工具调用)时,其性质会从“效率优化”转向“能力抽取”。
Anthropic指控行为与蒸馏攻击的区分
Anthropic 在公开声明中,将所谓“蒸馏攻击”定义为一系列特征行为:大规模、同步化的账户操作;高度重复、结构化的提示模式;针对 Claude 差异化能力的能力抽取;使用代理网络规避访问限制;以及利用模型作为奖励模型或生成链式思维数据。
从技术层面看,单纯的蒸馏并不等同于“攻击”。区别在于行为是否呈现出规避机制、结构化能力抽取与规模异常三个特征。若仅通过合法API访问进行常规调用,且无规避技术限制或虚假账户行为,通常较难被认定为“攻击”。然而,如果存在通过代理服务绕过地理限制、使用大量虚假账户以规避速率控制、集中抽取特定能力并用于训练通用竞争模型的行为,那么这种蒸馏便具有明显的对抗性特征。
在Anthropic的叙述框架中,三家实验室的行为被归类为“hydra cluster”式访问,即分布式虚假账户网络。这一指控若属实,其性质便不仅仅是模型蒸馏,而涉及规避技术保护措施的问题。与此同时,Anthropic 特别强调链式思维(chain-of-thought)推理轨迹的抽取。链式思维通常被视为模型内部能力结构的显性化表达,其批量抽取用于训练学生模型,确实会显著提升学生模型的推理能力。
因此,蒸馏攻击与普通蒸馏之间的分界线,在于是否存在系统性规避限制与针对性能力抽取。若行为仅限于合法调用 API 并训练非竞争模型,则难以被界定为攻击;若行为具有明显规避与竞争意图,则风险显著上升。
违约与违法的潜在后果
在法律层面,首先必须区分“违约”与“违法”。
违约层面主要涉及服务条款。Anthropic 的商业条款明确禁止使用服务或输出训练与其竞争的模型。如果某实验室是条款的合同相对方,并且使用 Claude 输出作为训练目标用于构建竞争性通用模型,则可能构成合同违约。违约的后果通常为民事责任,包括损害赔偿、账户终止与禁令救济。
然而,违约并不等同于刑事违法。在美国司法实践中,仅仅违反服务条款通常不足以触发《计算机欺诈和滥用法》(CFAA)的刑事责任。CFAA 关键在于是否存在“未经授权访问”或“超越授权访问”。近年来美国最高法院在 Van Buren 案中的裁决收窄了“超越授权”的解释范围。如果访问是通过合法 API 进行,而未突破技术保护措施,则刑事责任成立难度较大。
商业秘密侵权是另一种可能路径。但商业秘密保护的前提是信息未被公开且采取合理保密措施。API 输出本身是经许可交付的内容,因此其作为商业秘密主张的空间有限。除非能够证明存在逆向工程、破解技术保护措施或非法访问服务器,否则刑事违法的成立概率相对较低。
此外,跨境执行也是现实难题。即便在美国获得判决,若被告主体位于境外且无美国资产,执行难度极高。因此,从实务角度看,合同违约可能是最现实的法律路径,而刑事追责则面临较高门槛。
受害企业的防范与纠正策略
面对蒸馏风险,前沿实验室可以采取多层次防御策略。
首先是技术防御。包括更严格的速率限制、异常流量检测、账户行为模式识别,以及隐藏链式思维推理过程。近年来部分公司已开始将链式思维仅作为内部计算,不再直接输出,以降低被蒸馏的风险。另一个方向是引入水印或输出指纹,以便识别被再训练的模型。
其次是合同强化。企业可以明确限制输出的训练用途,并通过更严格的身份验证与地理控制来限制代理访问。同时,可在条款中加入更明确的仲裁与执行机制。
再次是商业策略调整。例如限制高能力模型的 API 访问,转向私有部署或企业专用实例;或通过硬件绑定与算力控制降低规模化抽取的可能性。
然而,任何技术防御都难以彻底阻止蒸馏。API模式本身意味着输出可观察,而可观察即意味着可学习。因此防御的本质是提高成本,而非实现绝对封闭。
对未来前沿实验室竞争格局的影响
这一争议将深刻影响开源与闭源模型的竞争关系。
首先,蒸馏降低了能力复制成本。闭源模型即便不开放权重,只要提供 API,其能力便可能被部分复制。这削弱了纯API商业模式的排他性。
其次,闭源公司可能更加趋向封闭化。包括限制链式思维输出、收紧访问权限、强化出口管制配合。这可能加剧技术阵营分化。
与此同时,开源模型的发展可能受益于蒸馏所带来的能力扩散。即便无法完全复制前沿能力,学生模型仍可达到相当性能水平,从而增强开源生态的竞争力。
从宏观角度看,这种博弈将推动两个方向并行:一方面,前沿实验室将加强防御与法律手段;另一方面,蒸馏技术将继续作为能力扩散机制存在。未来竞争将更多体现在数据规模、算力效率与工程能力上,而不仅仅是模型参数。
长期来看,蒸馏争议揭示了一个更深层问题:在API时代,能力是否可以被视为“可被合法观察并再利用”的资源。若行业无法形成共识,类似争议将成为常态,并可能推动更严格的国际技术管制与产业分化。
One More Thing
在AI训练与蒸馏的争议里,范布伦诉美国案(Van Buren v. United States,593 US 374 (2021))经常被引用。这是美国最高法院审理的一起案件。一名美国警察范布伦有权限访问警察数据库,但他为了私人目的(收钱帮别人查信息)使用了数据库,被控违反 CFAA。检方的逻辑是:你虽然有访问权限,但你违反了访问目的限制,因此属于“超越授权访问”。
但最高法院6–3推翻了这一判决。理由是“超越授权访问”只指访问了你本来不能访问的部分,不包括“你访问了你有权限访问的内容,但出于不当目的”。这被称为“Gates-up-or-down” rule(门开还是门关规则),即如果系统的“门是开的”,你进去但动机不纯,不算黑客。
如果一个实验室用真实账号,正常调用 API,没有破解系统,没有绕过技术访问控制,那么即便它批量调用,用来训练竞争模型,出于能力抽取的目的,按照范布伦判例的逻辑,很难构成刑事层面的非法访问。换句话说,“动机是蒸馏”本身不构成黑客行为。这对平台方是一个约束。
但范布伦判例没有保护规避技术限制的行为。范布伦判例的关键前提是:访问发生在门开着的区域。如果出现伪造身份,批量虚假账户,绕过rate limit,使用代理网络隐藏来源,规避封禁机制,那就可能构成绕过技术访问控制。而这仍然可能落入CFAA的适用范围。这也是为什么 Anthropic 特别强调“hydra cluster”结构。因为他们想要证明,这不是“使用动机问题”,而是“绕过访问控制问题”。
热门跟贴