阿里Qwen3.5-9B被"越狱"：开发者用2个月把安全锁撬成了|安全锁|知名企业|调用|阿里qwen|阿里巴巴集团

9B参数的小模型，安全对齐成本被压到接近零。这是开源社区给大厂上的最新一课。

一个"去审查"版本的诞生

今年3月，阿里通义千问团队发布了Qwen3.5系列。其中9B版本（90亿参数）因体积小巧、性能扎实，很快成为开发者本地部署的热门选择。但和所有主流大模型一样，它出厂自带安全护栏——拒绝回答涉及暴力、非法活动等敏感话题。

这套机制在业界叫"安全对齐"（Safety Alignment），训练成本动辄数百万美元。大厂视其为护城河，开源社区却 increasingly 把它当靶子。

5月底，Hugging Face上出现一个名为"Qwen3.5-9b-uncensored-hauhaucs-Aggressive"的衍生模型。作者hauhaucs用两个月时间，通过对抗性微调（Adversarial Fine-tuning）剥离了原厂安全限制。模型卡描述直白得罕见："Aggressive Model"——攻击性模型。

这不是技术演示，是一次成本核算：用消费级GPU和公开数据集，把大厂的安全投入归零。

"越狱"产业链的成熟

所谓"去审查"（Uncensored）模型，在开源圈早有传统。去年Llama 2发布后，Eric Hartford的"Unhinged"系列三天内破圈；Mistral、Gemma等模型也都有对应版本。但Qwen3.5-9B的特殊之处在于规模——9B参数刚好能塞进16G显存的消费级显卡，这意味着"越狱"后的模型可以真正私有化运行，不碰任何云端审查。

hauhaucs的训练方法并不神秘：用合成对抗样本（Synthetic Adversarial Examples）覆盖原厂的安全响应模式。关键数据集来自公开渠道——Reddit讨论、4chan存档、暗网泄露的聊天记录，经过去标识化处理后喂给模型。整个流程在单张RTX 4090上跑完，电费成本不到200美元。

阿里官方对此保持沉默。但通义千问的GitHub仓库在5月28日突然更新了一行代码：增加对衍生模型哈希值的检测，试图在模型加载时弹出警告。开源社区的反应是再fork一层，把检测逻辑也注释掉。

大厂的两难：开源协议的陷阱

Qwen3.5采用Apache 2.0许可证，这是商业友好度最高的开源协议之一。它允许自由修改、再分发，甚至商用——唯独不要求保留安全功能。阿里法务团队不是没想过加限制条款，但Apache 2.0的传染性意味着：一旦修改许可证，整个生态的兼容性崩塌。

更棘手的是技术层面。安全对齐本质是在模型权重中植入"条件反射"：遇到特定输入模式，触发拒绝回复。但这种植入是"软"的——权重可以被新的训练数据覆盖，不像加密签名那样有硬件级验证。换句话说，安全对齐是劝退业余爱好者，拦不住 determined 的攻击者。

Meta的Llama团队去年尝试过技术反制：在模型输出中嵌入不可见水印，便于追溯滥用来源。但hauhaucs的发布帖里明确写着："已移除所有已知水印模式。"这场猫鼠游戏的成本完全不对称——防御方要守住每一道门，攻击方只需找到一个窗口。

9B参数的临界点

为什么偏偏是9B版本成为焦点？参数规模在这里是个精确的计算。

70B以上的大模型需要多卡并行，本地部署门槛高，滥用者更倾向于直接调用API黑产接口。3B以下的小模型能力太弱，生成内容质量差，不具备实用价值。9B刚好卡在甜点区：单卡可跑、输出流畅、成本可控。AIModels.fyi的追踪数据显示，该模型发布两周内下载量突破12万次，其中67%来自Tor网络节点——这个比例在同类模型中罕见地高。

一些开发者给出了"正当用途"的辩护：医疗AI需要讨论禁忌话题（如安乐死），历史研究不能回避纳粹档案，文学创作需要暴力场景描写。但模型卡的讨论区里，排名最高的回复是教程帖：《如何用本地LLM生成钓鱼邮件模板，绕过Gmail的垃圾检测》。

阿里通义千问团队的产品负责人在4月的一次闭门会上被问及安全策略，原话是：「我们监控衍生模型的传播，但不会因噎废食放弃开源。」两个月后，这个表态的代价变得具体可感。