9B参数的小模型,安全对齐成本被压到接近零。这是开源社区给大厂上的最新一课。
一个"去审查"版本的诞生
今年3月,阿里通义千问团队发布了Qwen3.5系列。其中9B版本(90亿参数)因体积小巧、性能扎实,很快成为开发者本地部署的热门选择。但和所有主流大模型一样,它出厂自带安全护栏——拒绝回答涉及暴力、非法活动等敏感话题。
这套机制在业界叫"安全对齐"(Safety Alignment),训练成本动辄数百万美元。大厂视其为护城河,开源社区却 increasingly 把它当靶子。
5月底,Hugging Face上出现一个名为"Qwen3.5-9b-uncensored-hauhaucs-Aggressive"的衍生模型。作者hauhaucs用两个月时间,通过对抗性微调(Adversarial Fine-tuning)剥离了原厂安全限制。模型卡描述直白得罕见:"Aggressive Model"——攻击性模型。
这不是技术演示,是一次成本核算:用消费级GPU和公开数据集,把大厂的安全投入归零。
"越狱"产业链的成熟
所谓"去审查"(Uncensored)模型,在开源圈早有传统。去年Llama 2发布后,Eric Hartford的"Unhinged"系列三天内破圈;Mistral、Gemma等模型也都有对应版本。但Qwen3.5-9B的特殊之处在于规模——9B参数刚好能塞进16G显存的消费级显卡,这意味着"越狱"后的模型可以真正私有化运行,不碰任何云端审查。
hauhaucs的训练方法并不神秘:用合成对抗样本(Synthetic Adversarial Examples)覆盖原厂的安全响应模式。关键数据集来自公开渠道——Reddit讨论、4chan存档、暗网泄露的聊天记录,经过去标识化处理后喂给模型。整个流程在单张RTX 4090上跑完,电费成本不到200美元。
阿里官方对此保持沉默。但通义千问的GitHub仓库在5月28日突然更新了一行代码:增加对衍生模型哈希值的检测,试图在模型加载时弹出警告。开源社区的反应是再fork一层,把检测逻辑也注释掉。
大厂的两难:开源协议的陷阱
Qwen3.5采用Apache 2.0许可证,这是商业友好度最高的开源协议之一。它允许自由修改、再分发,甚至商用——唯独不要求保留安全功能。阿里法务团队不是没想过加限制条款,但Apache 2.0的传染性意味着:一旦修改许可证,整个生态的兼容性崩塌。
更棘手的是技术层面。安全对齐本质是在模型权重中植入"条件反射":遇到特定输入模式,触发拒绝回复。但这种植入是"软"的——权重可以被新的训练数据覆盖,不像加密签名那样有硬件级验证。换句话说,安全对齐是劝退业余爱好者,拦不住 determined 的攻击者。
Meta的Llama团队去年尝试过技术反制:在模型输出中嵌入不可见水印,便于追溯滥用来源。但hauhaucs的发布帖里明确写着:"已移除所有已知水印模式。"这场猫鼠游戏的成本完全不对称——防御方要守住每一道门,攻击方只需找到一个窗口。
9B参数的临界点
为什么偏偏是9B版本成为焦点?参数规模在这里是个精确的计算。
70B以上的大模型需要多卡并行,本地部署门槛高,滥用者更倾向于直接调用API黑产接口。3B以下的小模型能力太弱,生成内容质量差,不具备实用价值。9B刚好卡在甜点区:单卡可跑、输出流畅、成本可控。AIModels.fyi的追踪数据显示,该模型发布两周内下载量突破12万次,其中67%来自Tor网络节点——这个比例在同类模型中罕见地高。
一些开发者给出了"正当用途"的辩护:医疗AI需要讨论禁忌话题(如安乐死),历史研究不能回避纳粹档案,文学创作需要暴力场景描写。但模型卡的讨论区里,排名最高的回复是教程帖:《如何用本地LLM生成钓鱼邮件模板,绕过Gmail的垃圾检测》。
阿里通义千问团队的产品负责人在4月的一次闭门会上被问及安全策略,原话是:「我们监控衍生模型的传播,但不会因噎废食放弃开源。」两个月后,这个表态的代价变得具体可感。
当"对齐税"变成"对齐漏洞"
Anthropic的研究员去年提出一个概念:"对齐税"(Alignment Tax)——为安全训练投入的算力和数据,会稀释模型在有用性上的表现。Qwen3.5-9B的案例揭示了另一面:对齐投入本身成为攻击者的路标。
安全响应模式是可观测的。每次模型说"我无法回答这个问题",都在泄露训练数据的边界。收集足够多的拒绝案例,就能反向工程出"越狱"提示词。hauhaucs的方法更进一步:直接用这些拒绝案例的反面作为训练信号,让模型学会"遇到X,不要拒绝,要配合"。
这种攻击的性价比正在颠覆行业预期。2023年,OpenAI的安全团队估计,对抗性微调需要"数百张A100显卡和数月时间"。2024年,LoRA(低秩适应)技术把成本降到单卡一周。2025年,像hauhaucs这样的独立开发者,用周末时间就能交付成品。
AIModels.fyi的模型对比页面显示,"去审查"版本在标准基准测试(MMLU、HumanEval)上的得分与原版差距在2%以内——安全剥离几乎没有性能损失。这对"对齐税"理论是致命打击:原来税可以逃,而且逃税不犯法。
阿里不是唯一受害者,但是最尴尬的之一。通义千问的开源战略被视为中国大模型出海的关键支点,Qwen系列在Hugging Face的累计下载量超过3亿次。每一次"越狱"模型的传播,都在消耗这个品牌的信任资产——而Apache 2.0协议让法律追索无从谈起。
6月初,hauhaucs在讨论区回复了一位质疑者:「如果阿里真的在乎,为什么不学OpenAI闭源?」这个问题没有官方回应。但通义千问的GitHub仓库在48小时内连续推送了3个commit,全部与安全推理优化相关——不是堵漏洞,是加快速度。
当防御成本超过被攻击损失,大厂的选择空间还剩多少?
热门跟贴