谁有权定义盗窃？Google的蒸馏攻击报告揭开AI产业的合法性危机|Google|gemini|盗窃|知名企业|蒸馏|谷歌

Google发布了一份安全报告：有人用10万次prompt试图蒸馏Gemini。

但真正的故事不在这里。真正的故事是，Google把自己同时塑造成受害者和英雄，几乎所有人都没买账。

表面上这是一则安全警报，实际上这是一个关于“谁有权定义盗窃”的故事。

知识产权法中有个核心概念叫“transformative use”，对原始材料做足够转化就构成合理使用。Google训练大模型时援引的正是这个逻辑。但当别人对Google的输出做同样的转化时，Google突然不认这个逻辑了。

Reddit上有人把这个矛盾说得很精准：要么从原始内容训练AI不算盗窃，那中国公司做的也不算；要么算盗窃，那美国公司的模型本身就是赃物。你不能两头都占。

技术上还有一个被故意模糊的事实：真正的蒸馏需要访问模型的原始logits，而不仅仅是文本输出。10万次prompt够不够做蒸馏？不够训练一个大模型，但足够做一个微调数据集，用来模仿Gemini的响应风格。这不是在克隆大脑，更像是在学口音。Google故意模糊这个区分，因为精确的技术描述不利于它想要建立的“盗窃”叙事。

还有一个被忽视的时间线问题：DeepSeek R1发布时，Gemini和Claude自己都还没有推理能力。DeepSeek公开了论文，其他公司后来才用他们的方法改进了自己的推理模型。所谓“中国公司蒸馏美国模型”的叙事，时间线上就站不住脚。

我们正处在AI产业的一个结构性矛盾中。这些模型的价值建立在开放互联网的数据之上，但它们的商业模式要求封闭。它们从公共知识中提取价值，然后试图把提取出的价值私有化。当别人用同样的逻辑从它们身上提取价值时，它们就喊“盗窃”。

这份报告的真正目的可能根本不是安全警告，而是一份叙事文件。它在建立一个框架：“蒸馏=盗窃=攻击”。一旦这个等式在公众认知中成立，下一步就是推动立法保护。而立法保护的实际效果是，只有已经拥有大模型的公司才能继续玩这个游戏。

这和当年唱片公司对付Napster的逻辑一模一样：先把复制定义为盗窃，再用法律消灭竞争。不同的是，这次被“保护”的不是音乐，而是从全人类公共知识中提炼出来的东西。

Reddit社区几乎一边倒地看穿了这种虚伪。当你的商业模式建立在“我可以用你的数据但你不能用我的输出”这个不对称逻辑上时，公众信任是不可能建立的。

最值得警惕的不是蒸馏攻击本身，而是这类报告正在为未来的监管俘获铺路，以保护知识产权之名，行巩固寡头垄断之实。

arstechnica.com/ai/2026/02/attackers-prompted-gemini-over-100000-times-while-trying-to-clone-it-google-says/