Qwen3.5 系列继续:
上篇文章介绍了 Jackrong 和 TeichAI 两个团队做的 Claude Opus 4.6 蒸馏版 Qwen3.5-27B,发完之后好多网友在评论区催我:光说不练假把式,能不能实际跑一下?
今天就拿 Jackrong 放出的GGUF 量化版,用 LM Studio 在本地实测一把,看看这个号称"平替 Opus"的蒸馏模型到底几斤几两。
我选择 Jackrong 的版本,原因无他,开发者用脚投票,它曾经登录过 Huggingface 热榜第一
2B、9B、27B、35B 都有,丰俭由人了可以说
其中 2B 版本模型文件只有 2GB
https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
Q4_K_M 只有 1.2GB
这个大家别试了,很多任务都无法完成,给他现成的 Skills 也不行
接入到 Claude Code
它花了 8 分钟才找全可用 skills,指定了也无法完全调用
一定要说优点:它是 256K 上下文,而且有 Vision 能力,生成速度 40+t/s
还有它翻译还可以
也不精神错乱
9B 版本 6GB
我是 16G 的 MacMini M4
所以本文只测试了 2B 和 9B
我建议大家能力尚可 从 27B 开始,我的机器其实也可以上 27B Q3,但是下载,测试,太耗时了,我几乎半天都耗在测试了,时长气的脑仁疼
35-A3B 36GB,这也是为何它干不过 27B 的原因之一
GGUF是目前本地部署大模型最主流的格式,基于 llama.cpp 生态,对 CPU 和消费级 GPU 都非常友好。相比原始的 safetensors 权重动辄 50+GB,GGUF 量化后最低 10GB 就能跑 27B 模型,这才是我们普通玩家的菜。
LM Studio就不用多介绍了吧,之前专门写过一篇
一句话概括:图形界面一键下载运行 + OpenAI/Anthropic 双兼容 API + CLI 命令行 + 远程 LM Link,从小白到开发者全覆盖。
用它来测模型,门槛最低、体验最好
模型概览
Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族:
量化版本
文件大小
显存占用(估算)
推荐场景
Q2_K
10.1 GB
~12 GB
极致省内存,精度有损
Q3_K_S
12.1 GB
~14 GB
内存紧张时的折中选择
Q3_K_M
13.3 GB
~15 GB
Q3 里精度最好的
Q4_K_S
15.6 GB
~17 GB
性价比之选
Q4_K_M
16.5 GB
~18 GB
精度与体积最佳平衡Q8_0
28.6 GB
~30 GB
追求精度,显存充裕时用
社区大佬 @ 在单卡 RTX 3090(24GB 显存)上实测 Q4_K_M 版本的数据:
显存占用约 16.5 GB,3090/4090 毫无压力
生成速度 29–35 tok/s,日常使用足够丝滑
完整保留 262K 上下文窗口,没有打折
修复了官方模型 Jinja 模板不支持
developerrole 的崩溃问题
我的建议:闭眼选 Q4_K_M。24GB 显存的卡(3090/4090)轻松装下,精度损失可以忽略。如果你是 Mac 用户,统一内存 32GB 以上也能跑。
本文测试 9B 实属无奈
Jackrong 的蒸馏版有什么特别的?
回顾一下上篇文章讲过的核心要点
这个模型的训练方法很"暴力":
数据来源:大约 3,280 条高质量的 Claude Opus 4.6 推理数据,外加 TeichAI 和 Jackrong 自己整理的补充数据集
训练策略:
train_on_responses_only——Loss 只在思考过程和最终答案上计算,逼模型去模仿 Claude 那种深度结构化思考微调方式:Unsloth + LoRA(Rank=64),非常高效
蒸馏完的模型在推理时会主动展开思维链:
Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...
和原版 Qwen3.5-27B 容易在简单问题上"绕圈子"不同,这个蒸馏版学到了 Claude 的风格——先分析、再拆解、再执行,推理效率明显更高。
而且社区测试发现,它在 AI 代码智能体场景(Claude Code、OpenCode)中表现极其稳定:连续自主运行超过 9 分钟不中断,能自动读报错、改代码、写 README,中途不卡顿不死机。
这一点确实可以,2B/9B 版都能做到。
原版模型在这种场景下经常半途卡住,差距很明显。
LM Studio 部署步骤
用 LM Studio 跑这个模型,总共就三步:
第一步:下载模型
打开 LM Studio,在搜索栏直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF,或者在 Discover 页面找到它。
如果你更喜欢命令行,也可以用lmsCLI:
lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf
或者用 huggingface-cli 手动下载到 LM Studio 的模型目录:
huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
--include "Qwen3.5-9B.Q4_K_M.gguf" \
--local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
网络不通可以使用 modelscope
第二步:加载模型pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF
下载完成后,在 LM Studio 左侧模型列表中找到它,点击加载
加载时建议调整几个参数:
GPU Offload:拉满(如果你有独立 GPU)
Context Length:先设 8192 或 16384 试试,够用再加,我上 262144
Max Concurrent Predictions:保持默认 1 即可
加载完成后直接在 Chat 界面对话
模型会自动启用思维链模式,你会看到
...
标签包裹的推理过程。
我用看家测试题目,背影阅读理解+svg 代码生成+审美测试题测它
令我吃惊的是,它完全可以理解到
就是速度差点意思,13t/s
这是曾经一种旗舰模型都可能滑铁卢的
生成的 svg 也只能说能看吧
LM Studio 加载模型后,点击左侧的Developer标签,开启本地服务器(默认端口 1234)。然后你就能用 OpenAI SDK 直接调用:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lmstudio"
)
response = client.chat.completions.create(
model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
messages=[
{"role": "user", "content": "用Python写一个LRU缓存,要求线程安全"}
],
temperature=0.6,
top_p=0.95,
max_tokens=8192
)print(response.choices[0].message.content)
甚至可以直接对接 Claude Code:
"ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
"ANTHROPIC_BASE_URL": "http://localhost:1234",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"
本地蒸馏模型驱动 Claude Code,白嫖到底,就问你香不香。
工具调用能力
请在当前目录下创建一个名为 debug_test.py 的 Python 脚本,代码内容是计算 1 到 10
的平均值,但请在代码中故意留下一个逻辑错误(比如除以 或者变量名写错)。接着运行这个脚本,捕获错误日志,分析原因并自动修复它,最后再次运行以确保输出正确的平均值
结果write_file、run_shell_command、read_file、write_file、run_shell_command一路下来都是 ok 的
能不能干点稍微重点的活儿呢?
有点难,比如查找 skills 调用 skills
看起来是瞎编的
本地有的 他也要 web search
除非你特殊强调
它很慢,又特别能思考,我实在没有精力等下去了,一下午荒废了。。。
算是帮大家踩过了,看的脑仁疼
总结
可以玩玩,但是能力有限,需要劳心费神
或许 27B 会好很多,至少评论区这么说
再挖个坑吧
-Opus .5
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴