Qwen3.5蒸馏模型砍了24%推理成本，准确率却几乎没掉

Ping值焦虑

2026-04-14 12:56 ·北京

96.91%的HumanEval通过率，推理链长度却少了近四分之一。这组数字放在一起，像是一个产品经理在OKR里同时写了"降本"和"增效"——通常只能二选一，但这次似乎真有人做到了。

蒸馏的本质：把Claude的"脑子"塞进更小的躯壳

蒸馏的本质：把Claude的"脑子"塞进更小的躯壳

这个叫Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF的模型，名字长到像密码，核心动作却很简单：用14000条Claude 4.6 Opus风格的推理样本，教会Qwen3.5-27B怎么"想得更短"。

训练目标不是刷榜，而是迁移一种特定的思维模式——简洁的推理路径，而非最大化的基准分数。结果很直观：每token的正确解法提升了31.6%，相当于用更少的字数交卷，分数还差不多。

开发者把这种优化称为"推理链长度减少约24%"。换个场景理解：以前解一道题要写满三页草稿纸，现在两页搞定，步骤没漏，计算没错，只是删掉了"让我想想""这里可能需要""嗯，不对"这类内心独白。

HumanEval+上的1.24%：一笔明算账

HumanEval+上的1.24%：一笔明算账

模型在HumanEval+上的准确率比基座模型低了1.24%。这个数字被明确标注为"有意为之的权衡"，而非能力不足。就像编译器优化时关掉某些调试信息——不是不能保留，是算过账后觉得不值。

推理过程的透明性被保留下来。用户能看到模型内部的思考步骤，这对数学辅导、代码审查这类场景很关键。学生要知道老师怎么想的，不只是答案对不对；开发者要理解AI为什么给出这段代码，不只是能跑不能跑。

模型处理的任务类型很具体：需要分析推理的文本提示、数学题、编程挑战、结合推理要求的通识问题。输出包括结构化的思维链、直接答案、带推理可见的代码方案、经过多步逻辑验证的解法。

跨域迁移：数学课上学到的，编程考试也用得上

一个有趣的验证：训练数据主要来自数学、文字题、逻辑推导这些通用领域，但模型在编程任务上的表现与基座相当。这说明蒸馏转移的是底层推理模式，而非特定领域的解题技巧。

类比来说，就像有人专门练了怎么拆解复杂问题——先识别核心目标，再拆成组件，评估约束条件，最后顺序执行。这套方法解物理题能用，写代码也能用，甚至回邮件理逻辑都能用。

9B版本的存在让这种效率优化有了梯度选择。算力充裕时上27B，边缘设备或成本敏感场景切9B，同一套"简洁推理"的配方。

谁该关心这个模型？

谁该关心这个模型？

离线分析场景是明确受益者。数学辅导系统需要一步步展示解题思路，代码生成工具需要解释为什么这样写，研究辅助需要可追溯的逻辑链条——这些场景对"推理可见"的需求，高于对绝对精度的执念。

成本结构也会变。API调用按token计费，推理链短24%直接等于账单金额打七六折。对于已经在大模型上跑通业务、现在进入"精细化运营"阶段的公司，这种优化比从零训练一个新模型更务实。

模型处理具体任务的方式值得细看：它减少了不必要的过渡短语和重复思考模式，代之以流线型的方法。不是变"笨"了，是学会了不说废话。

如果推理成本真的进入按分甚至按厘计价的阶段，"每token正确率"会不会成为新的核心指标？以及，当AI学会像优秀工程师一样写简洁的草稿，人类审稿的习惯是不是也该跟着改？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴