打开网易新闻 查看精彩图片

美国AI三巨头每年被"蒸馏"走的收入,够建一座小型核电站。Bloomberg最新披露,OpenAI、Anthropic、Google正在共享情报,专门对付中国厂商的模型复制。

2023年埋下的伏笔,现在派上用场

2023年埋下的伏笔,现在派上用场

三家公司合作的渠道叫"前沿模型论坛"(Frontier Model Forum),2023年就成立了。这个组织最初像是行业俱乐部,现在变成了情报交换站。他们要抓的技术叫"对抗性蒸馏"(adversarial distillation)——用大白话说,就是让你的模型给别人的模型"当老师",把知识偷走。

斯坦福2023年搞出的Alpaca模型是第一个公开案例。团队用了5.2万条GPT-3.5生成的对话数据,只花了不到600美元就训练出一个能用的模型。当时大家还在讨论学术伦理,现在这已经成了商业战争。

美国官方估算,这种"抄作业"行为每年让美国AI实验室损失数十亿美元收入。

DeepSeek的"高级手法"被点名

DeepSeek的"高级手法"被点名

OpenAI今年2月向国会提交过警告,说DeepSeek在用越来越精细的手段提取数据。Anthropic更直接,把DeepSeek、月之暗面(Moonshot)、MiniMax三家都列进了名单。

这里的操作细节值得细品。普通的模型蒸馏需要大量查询,容易被发现。但"对抗性蒸馏"会伪装查询模式,让被攻击的模型以为自己在服务正常用户。就像有人混进图书馆,不是偷书,而是每天来抄笔记,抄完回去自己出书。

三家公司现在的合作模式,照搬了网络安全行业的做法——竞争对手之间共享攻击数据。微软和谷歌的安全团队早就这样干了,现在OpenAI们终于醒悟:在模型安全这件事上,敌人不是彼此。

为什么现在才联手?

为什么现在才联手?

一个细节暴露时间线:Frontier Model Forum成立于2023年7月,但直到2025年初,三家公司才开始真正共享对抗性蒸馏的情报。中间这一年半,他们大概在互相试探——毕竟谁都不想暴露自己的防御漏洞。

另一个推动力是政策压力。美国商务部去年就开始调查中国AI公司的模型训练数据来源,国会听证会的频率明显加快。OpenAI 2月的国会证词,某种程度上也是给同行施压:要么一起行动,要么等着被监管。

技术层面,检测蒸馏攻击的难度在指数级上升。早期版本靠查询频率就能识别,现在攻击者会模拟真实用户的行为模式,甚至故意引入噪声来掩盖痕迹。这迫使防御方必须共享攻击样本,单靠一家公司的数据已经不够用了。

一个悬而未决的问题是:这种情报共享的边界在哪里?模型输出数据属于商业机密,攻击模式的数据同样敏感。三家公司目前只透露了"共享信息"这个框架,具体交换什么、交换多少,外界无从得知。

更现实的疑问是:当防御手段升级,攻击手段会不会跟着进化?这场猫鼠游戏的下一回合,谁会先亮出底牌?