Google发布了一份安全报告:有人用10万次prompt试图蒸馏Gemini。
但真正的故事不在这里。真正的故事是,Google把自己同时塑造成受害者和英雄,几乎所有人都没买账。
表面上这是一则安全警报,实际上这是一个关于“谁有权定义盗窃”的故事。
知识产权法中有个核心概念叫“transformative use”,对原始材料做足够转化就构成合理使用。Google训练大模型时援引的正是这个逻辑。但当别人对Google的输出做同样的转化时,Google突然不认这个逻辑了。
Reddit上有人把这个矛盾说得很精准:要么从原始内容训练AI不算盗窃,那中国公司做的也不算;要么算盗窃,那美国公司的模型本身就是赃物。你不能两头都占。
技术上还有一个被故意模糊的事实:真正的蒸馏需要访问模型的原始logits,而不仅仅是文本输出。10万次prompt够不够做蒸馏?不够训练一个大模型,但足够做一个微调数据集,用来模仿Gemini的响应风格。这不是在克隆大脑,更像是在学口音。Google故意模糊这个区分,因为精确的技术描述不利于它想要建立的“盗窃”叙事。
还有一个被忽视的时间线问题:DeepSeek R1发布时,Gemini和Claude自己都还没有推理能力。DeepSeek公开了论文,其他公司后来才用他们的方法改进了自己的推理模型。所谓“中国公司蒸馏美国模型”的叙事,时间线上就站不住脚。
我们正处在AI产业的一个结构性矛盾中。这些模型的价值建立在开放互联网的数据之上,但它们的商业模式要求封闭。它们从公共知识中提取价值,然后试图把提取出的价值私有化。当别人用同样的逻辑从它们身上提取价值时,它们就喊“盗窃”。
这份报告的真正目的可能根本不是安全警告,而是一份叙事文件。它在建立一个框架:“蒸馏=盗窃=攻击”。一旦这个等式在公众认知中成立,下一步就是推动立法保护。而立法保护的实际效果是,只有已经拥有大模型的公司才能继续玩这个游戏。
这和当年唱片公司对付Napster的逻辑一模一样:先把复制定义为盗窃,再用法律消灭竞争。不同的是,这次被“保护”的不是音乐,而是从全人类公共知识中提炼出来的东西。
Reddit社区几乎一边倒地看穿了这种虚伪。当你的商业模式建立在“我可以用你的数据但你不能用我的输出”这个不对称逻辑上时,公众信任是不可能建立的。
最值得警惕的不是蒸馏攻击本身,而是这类报告正在为未来的监管俘获铺路,以保护知识产权之名,行巩固寡头垄断之实。
arstechnica.com/ai/2026/02/attackers-prompted-gemini-over-100000-times-while-trying-to-clone-it-google-says/
热门跟贴