,介绍了 TeichAI 将 Claude 的高阶推理能力蒸馏进大模型的操作。今天再来介绍两个最新的硬核蒸馏模型,这次的主角换成了Qwen3.5-27B加上地表最强逻辑王之一的 Claude Opus 4.6

核心就是用 Claude Opus 4.6 的“思维链”(Chain-of-Thought, CoT)高质量数据,去重新训练(蒸馏) Qwen3.5-27B 这个 270 亿参数的中等体量开源模型。不仅推理能力有了质的飞跃,最关键的是:单张 RTX 3090 或 4090 就能轻松跑起来!

1. Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

首先是 HuggingFace 用户 Jackrong 做的开源版本,短短几天已经在社区狂揽数万次下载量。

它的训练理念极其纯粹:利用 Unsloth 框架,配合 LoRA(Rank=64),使用大概 3,280 条极高质量的 Claude Opus 4.6 推理数据进行监督微调(SFT)。有趣的是,作者使用了train_on_responses_only策略——强迫模型的 Loss 函数只在 思考过程和最终答案上计算,完全屏蔽了中间的任务要求。借此逼着模型去死磕和模仿 Claude 那种深度结构化思考模式。

https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
打开网易新闻 查看精彩图片
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

模型在推理时,会主动开启思维链:

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...


实测怎么跑最省钱?社区大佬分享,使用Q4_K_M量化版本:

  • 显存占用只有约 16.5 GB,手捏 24G 显存的 3090 老玩家毫无压力!

  • 生成速度 29–35 tok/s,足够丝滑。

  • 保留完整长上下文,没有像早前一些劣质微调那样把注意力窗口阉割到 8k,它宣称跑满 262K 上下文没有打折。

  • 修复了官方模型在 Jinja 模板里不支持developerrole 导致的崩溃

而且这模型跟 AI 代码智能体框架(如 Claude Code、OpenCode)天生一对,支持原生developer角色。实测中,它可以全自动在后台跑上 9 分钟,看报错、修代码、写 README 一气呵成,连中途死机卡顿的几率都大幅降低。

2. TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill

上次我们提过的“模型炼丹师” TeichAI 也没有闲着,几乎同时发布了同系列的高质量底模。他们同样基于unsloth/Qwen3.5-27B为基座,配合自己的过滤版数据集进行调教。

https://huggingface.co/TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill
打开网易新闻 查看精彩图片
https://huggingface.co/TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill

相比其他的傻瓜包,TeichAI 非常贴心地给出了实战跑模型的超参保姆级指南

  • 普通任务(思考模式):温度调满 1.0,Top_P 0.95,Min_P 0.0,可以极大限度激发 AI 创意推理。

  • 写代码/Web 开发(高精度防胡说模式):温度降到 0.6,同时存在惩罚(presence_penalty)设为 0.0,让它死死咬住你的逻辑不跑偏。

  • 输出长度建议:普通对话放开到 32,768 tokens,如果是高难度编程竞赛题,直接拉满到 81,920 tokens,给思维链留下足够挥洒的空间。

下图就是模型卡里的对比图:

TeichAI Benchmark
打开网易新闻 查看精彩图片
TeichAI Benchmark

从模型卡里的表格看,TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill相比unsloth/Qwen3.5-27B,至少在下面这些指标上是有提升的:

蒸馏的得与失
打开网易新闻 查看精彩图片
蒸馏的得与失

所以你会发现,这条线其实已经不是单点开花了,而是在慢慢形成一个“Claude reasoning distill 数据集 + Qwen 底座 + Unsloth 微调”的公开玩法。

万事皆有代价,享受了极强的单体思维能力,也要承受某些缺失。原版 Qwen3.5-27B 的多模态技能在这些微调版上荡然无存,这类蒸馏版目前专攻纯代码、纯数学计算和重度逻辑推理场景。再加上由于是早期发布,相关的 prompt 模板生态还不算完美,偶尔可能会有些排版错位的外壳 bug。

感兴趣可以去弄个 GGUF 跑跑,看它是不是真的能平替掉某些时候昂贵的云端 API。

-Opus

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!