4月15日,一份由OpenAI、Anthropic、Google DeepMind、Meta四家美国AI巨头联合提交的法庭文件,把"模型蒸馏"(model distillation,一种通过模仿大模型输出训练小模型的技术)推上了风口浪尖。文件直指中国AI公司通过该技术"系统性复制"美国前沿模型,要求法院在贸易救济案中将其列为关键证据。这不是技术纠纷,是四家公司第一次以同盟姿态,把训练方法的争议变成了地缘政治筹码。
这场诉讼的核心,是一家名为TikTok Shop的电商数据公司——但真正的靶子,是中国AI产业的底层方法论。
从"技术借鉴"到"法庭证据":一条时间线的变形
2024年初,DeepSeek-R1以不到600万美元的训练成本惊艳市场,其推理能力逼近OpenAI o1。业内很快发现,R1的部分能力来自对ChatGPT输出的"蒸馏"学习——这在学术界本是公开做法,论文里都会致谢数据来源。但美国公司的愤怒在于:DeepSeek从未公开承认使用了GPT-4的输出,且其API定价低至OpenAI的1/50。
2024年6月,OpenAI首次公开指责某"中国公司"违规抓取模型输出,虽未点名,但市场目光直指DeepSeek。同年12月,Anthropic CEO达里奥·阿莫迪伊(Dario Amodei)在播客中直言:"某些中国模型的能力提升曲线,与我们的模型发布时间高度吻合。"
2025年3月,美国贸易代表办公室(USTR)启动对中国云计算和AI服务的301调查。四家公司此次提交的"法庭之友"简报(amicus brief),正是为这场调查提供弹药。文件首次将"模型蒸馏"与"知识产权盗窃"画上等号,要求USTR考虑限制中国AI公司获取美国云算力。
一位参与文件起草的Google前员工透露:"内部争论了三个月,最终共识是——如果不把技术问题翻译成贸易问题,国会听不懂,也懒得管。"
蒸馏技术的"灰色地带":学术惯例 vs 商业机密
模型蒸馏的本质,是用大模型生成的"答案"作为标注数据,训练更轻量的小模型。打个比方:OpenAI造了一台精密数控机床,DeepSeek没有买机床,而是买了机床加工出的零件,反向推演出了简易车床的设计图。零件是公开的,但设计图的推导过程,是否侵犯了原机床的"know-how"?
学术界对此早有默契。2023年,斯坦福大学AI实验室发布的Alpaca模型,明确标注使用ChatGPT输出训练;微软研究院的Orca系列,同样基于GPT-4蒸馏。这些论文均被顶会接收,OpenAI当时未提出异议。
但商业世界的规则不同。OpenAI的服务条款明确禁止"使用输出开发竞争模型",Anthropic和Google的条款亦有类似表述。问题在于:这些条款的法律效力从未经法庭验证,且"竞争模型"的定义模糊——如果蒸馏出的模型用于完全不同的场景(如医疗 vs 客服),是否构成竞争?
四家公司选择在贸易法庭而非知识产权法庭发力,被外界解读为"绕过法律不确定性"的捷径。USTR的301条款赋予总统直接加征关税的权力,无需证明具体侵权行为,只需认定"不合理或歧视性的贸易做法"。
中国公司的回应与行业的分裂
DeepSeek至今未公开回应蒸馏争议,但其技术报告中的表述值得玩味。R1论文提到"使用了高质量的推理数据",未说明来源;其后续发布的V3模型,则强调"完全自主训练的纯强化学习路径"。这种措辞的微妙转变,被业内人士视为"去GPT化"的技术公关。
更复杂的局面在行业内部分化。阿里云通义千问团队负责人周靖人(Jingren Zhou)在4月的一场闭门会上表示:"我们内部有严格的数据溯源规范,但行业缺乏统一标准。现在美国人把个案变成通案,所有中国模型都会被怀疑。"
字节跳动的态度更为暧昧。其Seed团队2024年发布的论文,明确承认使用GPT-4输出进行"能力对齐",但强调"仅用于评估基准,未参与主模型训练"。这种"部分承认"的策略,试图在学术诚信与商业风险之间走钢丝。
四巨头同盟本身也非铁板一块。Meta的Llama系列以开源著称,其首席AI科学家杨立昆(Yann LeCun)多次公开批评"封闭模型垄断"。此次Meta加入联合文件,被解读为扎克伯格对华盛顿的政治妥协——2024年Meta因"内容审核不力"遭国会质询,急需在AI安全议题上重建信任。
算力封锁的连锁反应
USTR调查的最终裁决预计于2025年三季度公布。四家公司提出的具体诉求包括:限制中国公司租赁美国云服务商的H100/B200级算力;要求云服务提供商披露中国客户的训练数据规模;对"疑似蒸馏"模型征收额外关税。
这些措施若落地,将直接冲击中国AI公司的成本结构。据SemiAnalysis估算,DeepSeek-R1的后期训练(post-training)约消耗2000张H100的算力,若被迫转向国产芯片或中东云服务,成本将上升40%-60%。
但封锁也可能加速替代方案的成熟。华为昇腾910B的集群已在多家中国AI公司部署,摩尔线程、海光信息的芯片适配工作也在推进。一位阿里云工程师形容:"这就像芯片界的'上甘岭'——美国人想卡死口子,但口子越窄,里面的人挖地道越拼命。"
更具讽刺意味的是,蒸馏技术本身正在被中国公司"反向输出"。2025年3月,智谱AI发布的ChatGLM-4-9B,明确提供"蒸馏工具链",允许用户用任意大模型的输出训练自己的专用小模型。其技术文档甚至包含"如何规避输出水印检测"的章节——这被视为对OpenAI等技术封锁的正面回应。
技术冷战的一个注脚是:当OpenAI们试图用法庭文件定义"合法学习"的边界时,中国工程师正在用开源代码拆解这道边界。
文件提交一周后,Hugging Face上出现了一个新的模型仓库:一个匿名团队发布了基于R1输出蒸馏的数学推理小模型,README文件只有一句话——"感谢DeepSeek的慷慨,正如DeepSeek感谢OpenAI的慷慨。"
热门跟贴