Qwen3.5 系列继续:

上篇文章介绍了 Jackrong 和 TeichAI 两个团队做的 Claude Opus 4.6 蒸馏版 Qwen3.5-27B,发完之后好多网友在评论区催我:光说不练假把式,能不能实际跑一下?

今天就拿 Jackrong 放出的GGUF 量化版,用 LM Studio 在本地实测一把,看看这个号称"平替 Opus"的蒸馏模型到底几斤几两。

打开网易新闻 查看精彩图片

我选择 Jackrong 的版本,原因无他,开发者用脚投票,它曾经登录过 Huggingface 热榜第一

热榜第一.png
打开网易新闻 查看精彩图片
热榜第一.png

2B、9B、27B、35B 都有,丰俭由人了可以说

其中 2B 版本模型文件只有 2GB

打开网易新闻 查看精彩图片

https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Q4_K_M 只有 1.2GB

打开网易新闻 查看精彩图片

这个大家别试了,很多任务都无法完成,给他现成的 Skills 也不行

打开网易新闻 查看精彩图片

接入到 Claude Code

打开网易新闻 查看精彩图片

它花了 8 分钟才找全可用 skills,指定了也无法完全调用

打开网易新闻 查看精彩图片

一定要说优点:它是 256K 上下文,而且有 Vision 能力,生成速度 40+t/s

打开网易新闻 查看精彩图片

还有它翻译还可以

打开网易新闻 查看精彩图片

也不精神错乱

打开网易新闻 查看精彩图片

9B 版本 6GB

我是 16G 的 MacMini M4

所以本文只测试了 2B 和 9B

我建议大家能力尚可 从 27B 开始,我的机器其实也可以上 27B Q3,但是下载,测试,太耗时了,我几乎半天都耗在测试了,时长气的脑仁疼

打开网易新闻 查看精彩图片

35-A3B 36GB,这也是为何它干不过 27B 的原因之一

为什么选 GGUF + LM Studio?
打开网易新闻 查看精彩图片
为什么选 GGUF + LM Studio?

GGUF是目前本地部署大模型最主流的格式,基于 llama.cpp 生态,对 CPU 和消费级 GPU 都非常友好。相比原始的 safetensors 权重动辄 50+GB,GGUF 量化后最低 10GB 就能跑 27B 模型,这才是我们普通玩家的菜。

LM Studio就不用多介绍了吧,之前专门写过一篇

一句话概括:图形界面一键下载运行 + OpenAI/Anthropic 双兼容 API + CLI 命令行 + 远程 LM Link,从小白到开发者全覆盖。

用它来测模型,门槛最低、体验最好

模型概览

Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族:

量化版本

文件大小

显存占用(估算)

推荐场景

Q2_K

10.1 GB

~12 GB

极致省内存,精度有损

Q3_K_S

12.1 GB

~14 GB

内存紧张时的折中选择

Q3_K_M

13.3 GB

~15 GB

Q3 里精度最好的

Q4_K_S

15.6 GB

~17 GB

性价比之选

Q4_K_M

16.5 GB

~18 GB

精度与体积最佳平衡Q8_0

28.6 GB

~30 GB

追求精度,显存充裕时用

社区大佬 @ 在单卡 RTX 3090(24GB 显存)上实测 Q4_K_M 版本的数据:

  • 显存占用约 16.5 GB,3090/4090 毫无压力

  • 生成速度 29–35 tok/s,日常使用足够丝滑

  • 完整保留 262K 上下文窗口,没有打折

  • 修复了官方模型 Jinja 模板不支持developerrole 的崩溃问题

我的建议:闭眼选 Q4_K_M。24GB 显存的卡(3090/4090)轻松装下,精度损失可以忽略。如果你是 Mac 用户,统一内存 32GB 以上也能跑。

本文测试 9B 实属无奈

Jackrong 的蒸馏版有什么特别的?

回顾一下上篇文章讲过的核心要点

这个模型的训练方法很"暴力":

  1. 数据来源:大约 3,280 条高质量的 Claude Opus 4.6 推理数据,外加 TeichAI 和 Jackrong 自己整理的补充数据集

  2. 训练策略train_on_responses_only——Loss 只在 思考过程和最终答案上计算,逼模型去模仿 Claude 那种深度结构化思考

  3. 微调方式:Unsloth + LoRA(Rank=64),非常高效

蒸馏完的模型在推理时会主动展开思维链:

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...


和原版 Qwen3.5-27B 容易在简单问题上"绕圈子"不同,这个蒸馏版学到了 Claude 的风格——先分析、再拆解、再执行,推理效率明显更高。

而且社区测试发现,它在 AI 代码智能体场景(Claude Code、OpenCode)中表现极其稳定:连续自主运行超过 9 分钟不中断,能自动读报错、改代码、写 README,中途不卡顿不死机。

这一点确实可以,2B/9B 版都能做到。

原版模型在这种场景下经常半途卡住,差距很明显。

LM Studio 部署步骤

用 LM Studio 跑这个模型,总共就三步:

第一步:下载模型

打开 LM Studio,在搜索栏直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF,或者在 Discover 页面找到它。

打开网易新闻 查看精彩图片

如果你更喜欢命令行,也可以用lmsCLI:

lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf

或者用 huggingface-cli 手动下载到 LM Studio 的模型目录:

huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
--include "Qwen3.5-9B.Q4_K_M.gguf" \
--local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

网络不通可以使用 modelscope

pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF


第二步:加载模型

下载完成后,在 LM Studio 左侧模型列表中找到它,点击加载

加载时建议调整几个参数:

  • GPU Offload:拉满(如果你有独立 GPU)

  • Context Length:先设 8192 或 16384 试试,够用再加,我上 262144

  • Max Concurrent Predictions:保持默认 1 即可

第三步:开聊

加载完成后直接在 Chat 界面对话

模型会自动启用思维链模式,你会看到 ... 标签包裹的推理过程。

我用看家测试题目,背影阅读理解+svg 代码生成+审美测试题测它

令我吃惊的是,它完全可以理解到

打开网易新闻 查看精彩图片

就是速度差点意思,13t/s

这是曾经一种旗舰模型都可能滑铁卢的

打开网易新闻 查看精彩图片

生成的 svg 也只能说能看吧

进阶:当 API 服务器用
打开网易新闻 查看精彩图片
进阶:当 API 服务器用

LM Studio 加载模型后,点击左侧的Developer标签,开启本地服务器(默认端口 1234)。然后你就能用 OpenAI SDK 直接调用

from openai import OpenAI

client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="lmstudio"
)

response = client.chat.completions.create(
model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
messages=[
{"role": "user", "content": "用Python写一个LRU缓存,要求线程安全"}
],
temperature=0.6,
top_p=0.95,
max_tokens=8192
)

print(response.choices[0].message.content)

甚至可以直接对接 Claude Code:

    "ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
"ANTHROPIC_BASE_URL": "http://localhost:1234",
"ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
"ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"

本地蒸馏模型驱动 Claude Code,白嫖到底,就问你香不香。

打开网易新闻 查看精彩图片

工具调用能力

请在当前目录下创建一个名为 debug_test.py 的 Python 脚本,代码内容是计算 1 到 10
的平均值,但请在代码中故意留下一个逻辑错误(比如除以 或者变量名写错)。接着运行这个脚本,捕获错误日志,分析原因并自动修复它,最后再次运行以确保输出正确的平均值

结果write_file、run_shell_command、read_file、write_file、run_shell_command一路下来都是 ok 的

打开网易新闻 查看精彩图片

能不能干点稍微重点的活儿呢?

有点难,比如查找 skills 调用 skills

看起来是瞎编的

打开网易新闻 查看精彩图片

本地有的 他也要 web search

打开网易新闻 查看精彩图片

除非你特殊强调

打开网易新闻 查看精彩图片

它很慢,又特别能思考,我实在没有精力等下去了,一下午荒废了。。。

算是帮大家踩过了,看的脑仁疼

总结

可以玩玩,但是能力有限,需要劳心费神

或许 27B 会好很多,至少评论区这么说

再挖个坑吧

打开网易新闻 查看精彩图片

-Opus .5

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!