神操作再现，单卡3090 起跑！Claude-4.6-Opus蒸馏Qwen3.5-27B

Ai学习的老章

2026-03-12 22:32 ·北京 ·优质互联网领域创作者

，介绍了 TeichAI 将 Claude 的高阶推理能力蒸馏进大模型的操作。今天再来介绍两个最新的硬核蒸馏模型，这次的主角换成了Qwen3.5-27B加上地表最强逻辑王之一的 Claude Opus 4.6

核心就是用 Claude Opus 4.6 的“思维链”（Chain-of-Thought, CoT）高质量数据，去重新训练（蒸馏） Qwen3.5-27B 这个 270 亿参数的中等体量开源模型。不仅推理能力有了质的飞跃，最关键的是：单张 RTX 3090 或 4090 就能轻松跑起来！

1. Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

首先是 HuggingFace 用户 Jackrong 做的开源版本，短短几天已经在社区狂揽数万次下载量。

它的训练理念极其纯粹：利用 Unsloth 框架，配合 LoRA（Rank=64），使用大概 3,280 条极高质量的 Claude Opus 4.6 推理数据进行监督微调（SFT）。有趣的是，作者使用了train_on_responses_only策略——强迫模型的 Loss 函数只在思考过程和最终答案上计算，完全屏蔽了中间的任务要求。借此逼着模型去死磕和模仿 Claude 那种深度结构化思考模式。

https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

模型在推理时，会主动开启思维链：

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...

实测怎么跑最省钱？社区大佬分享，使用Q4_K_M量化版本：

显存占用只有约 16.5 GB，手捏 24G 显存的 3090 老玩家毫无压力！
生成速度 29–35 tok/s，足够丝滑。
保留完整长上下文，没有像早前一些劣质微调那样把注意力窗口阉割到 8k，它宣称跑满 262K 上下文没有打折。
修复了官方模型在 Jinja 模板里不支持developerrole 导致的崩溃

而且这模型跟 AI 代码智能体框架（如 Claude Code、OpenCode）天生一对，支持原生developer角色。实测中，它可以全自动在后台跑上 9 分钟，看报错、修代码、写 README 一气呵成，连中途死机卡顿的几率都大幅降低。

2. TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill

上次我们提过的“模型炼丹师” TeichAI 也没有闲着，几乎同时发布了同系列的高质量底模。他们同样基于unsloth/Qwen3.5-27B为基座，配合自己的过滤版数据集进行调教。

https://huggingface.co/TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill

相比其他的傻瓜包，TeichAI 非常贴心地给出了实战跑模型的超参保姆级指南：

普通任务（思考模式）：温度调满 1.0，Top_P 0.95，Min_P 0.0，可以极大限度激发 AI 创意推理。
写代码/Web 开发（高精度防胡说模式）：温度降到 0.6，同时存在惩罚（presence_penalty）设为 0.0，让它死死咬住你的逻辑不跑偏。
输出长度建议：普通对话放开到 32,768 tokens，如果是高难度编程竞赛题，直接拉满到 81,920 tokens，给思维链留下足够挥洒的空间。

下图就是模型卡里的对比图：

TeichAI Benchmark

从模型卡里的表格看，TeichAI/Qwen3.5-27B-Claude-Opus-4.6-Distill相比unsloth/Qwen3.5-27B，至少在下面这些指标上是有提升的：

蒸馏的得与失

所以你会发现，这条线其实已经不是单点开花了，而是在慢慢形成一个“Claude reasoning distill 数据集 + Qwen 底座 + Unsloth 微调”的公开玩法。

万事皆有代价，享受了极强的单体思维能力，也要承受某些缺失。原版 Qwen3.5-27B 的多模态技能在这些微调版上荡然无存，这类蒸馏版目前专攻纯代码、纯数学计算和重度逻辑推理场景。再加上由于是早期发布，相关的 prompt 模板生态还不算完美，偶尔可能会有些排版错位的外壳 bug。

感兴趣可以去弄个 GGUF 跑跑，看它是不是真的能平替掉某些时候昂贵的云端 API。

-Opus

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴