实测 Claude-Opus-4.6蒸馏版Qwen3.5，9B 已能打，用LM-Studio本地跑，对接 Claude Code|lm|opus|studio|上下文|代码|电子表格|调用

Qwen3.5 系列继续：

上篇文章介绍了 Jackrong 和 TeichAI 两个团队做的 Claude Opus 4.6 蒸馏版 Qwen3.5-27B，发完之后好多网友在评论区催我：光说不练假把式，能不能实际跑一下？

今天就拿 Jackrong 放出的GGUF 量化版，用 LM Studio 在本地实测一把，看看这个号称"平替 Opus"的蒸馏模型到底几斤几两。

我选择 Jackrong 的版本，原因无他，开发者用脚投票，它曾经登录过 Huggingface 热榜第一

2B、9B、27B、35B 都有，丰俭由人了可以说

其中 2B 版本模型文件只有 2GB

https://modelscope.cn/models/Jackrong/Qwen3.5-2B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Q4_K_M 只有 1.2GB

这个大家别试了，很多任务都无法完成，给他现成的 Skills 也不行

接入到 Claude Code

它花了 8 分钟才找全可用 skills，指定了也无法完全调用

一定要说优点：它是 256K 上下文，而且有 Vision 能力，生成速度 40+t/s

还有它翻译还可以

也不精神错乱

9B 版本 6GB

我是 16G 的 MacMini M4

所以本文只测试了 2B 和 9B

我建议大家能力尚可从 27B 开始，我的机器其实也可以上 27B Q3，但是下载，测试，太耗时了，我几乎半天都耗在测试了，时长气的脑仁疼

35-A3B 36GB，这也是为何它干不过 27B 的原因之一

GGUF是目前本地部署大模型最主流的格式，基于 llama.cpp 生态，对 CPU 和消费级 GPU 都非常友好。相比原始的 safetensors 权重动辄 50+GB，GGUF 量化后最低 10GB 就能跑 27B 模型，这才是我们普通玩家的菜。

LM Studio就不用多介绍了吧，之前专门写过一篇

一句话概括：图形界面一键下载运行 + OpenAI/Anthropic 双兼容 API + CLI 命令行 + 远程 LM Link，从小白到开发者全覆盖。

用它来测模型，门槛最低、体验最好

模型概览

Jackrong 在 HuggingFace 上放出了27B完整的 GGUF 量化家族：

量化版本

文件大小

显存占用（估算）

推荐场景

Q2_K

10.1 GB

~12 GB

极致省内存，精度有损

Q3_K_S

12.1 GB

~14 GB

内存紧张时的折中选择

Q3_K_M

13.3 GB

~15 GB

Q3 里精度最好的

Q4_K_S

15.6 GB

~17 GB

性价比之选

Q4_K_M

16.5 GB

~18 GB

精度与体积最佳平衡Q8_0

28.6 GB

~30 GB

追求精度，显存充裕时用

社区大佬 @ 在单卡 RTX 3090（24GB 显存）上实测 Q4_K_M 版本的数据：

显存占用约 16.5 GB，3090/4090 毫无压力
生成速度 29–35 tok/s，日常使用足够丝滑
完整保留 262K 上下文窗口，没有打折
修复了官方模型 Jinja 模板不支持developerrole 的崩溃问题

我的建议：闭眼选 Q4_K_M。24GB 显存的卡（3090/4090）轻松装下，精度损失可以忽略。如果你是 Mac 用户，统一内存 32GB 以上也能跑。

本文测试 9B 实属无奈

Jackrong 的蒸馏版有什么特别的？

回顾一下上篇文章讲过的核心要点

这个模型的训练方法很"暴力"：

数据来源：大约 3,280 条高质量的 Claude Opus 4.6 推理数据，外加 TeichAI 和 Jackrong 自己整理的补充数据集
训练策略：train_on_responses_only——Loss 只在思考过程和最终答案上计算，逼模型去模仿 Claude 那种深度结构化思考
微调方式：Unsloth + LoRA（Rank=64），非常高效

蒸馏完的模型在推理时会主动展开思维链：

 

Let me analyze this request carefully:
1. Identify the core objective of the problem.
2. Break the task into clearly defined subcomponents.
3. Evaluate constraints and edge cases.
4. Formulate a step-by-step solution plan.
5. Execute the reasoning sequentially and verify consistency...

和原版 Qwen3.5-27B 容易在简单问题上"绕圈子"不同，这个蒸馏版学到了 Claude 的风格——先分析、再拆解、再执行，推理效率明显更高。

而且社区测试发现，它在 AI 代码智能体场景（Claude Code、OpenCode）中表现极其稳定：连续自主运行超过 9 分钟不中断，能自动读报错、改代码、写 README，中途不卡顿不死机。

这一点确实可以，2B/9B 版都能做到。

原版模型在这种场景下经常半途卡住，差距很明显。

LM Studio 部署步骤

用 LM Studio 跑这个模型，总共就三步：

第一步：下载模型

打开 LM Studio，在搜索栏直接搜索Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF，或者在 Discover 页面找到它。

如果你更喜欢命令行，也可以用lmsCLI：

lms get Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF --file Qwen3.5-9B.Q4_K_M.gguf

或者用 huggingface-cli 手动下载到 LM Studio 的模型目录：

huggingface-cli download Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF \
  --include "Qwen3.5-9B.Q4_K_M.gguf" \
  --local-dir ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

网络不通可以使用 modelscope

pip install modelcope
modelscope download --model Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-9B.Q4_K_M.gguf --local_dir  ~/.cache/lm-studio/models/Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

第二步：加载模型

下载完成后，在 LM Studio 左侧模型列表中找到它，点击加载

加载时建议调整几个参数：

GPU Offload：拉满（如果你有独立 GPU）
Context Length：先设 8192 或 16384 试试，够用再加，我上 262144
Max Concurrent Predictions：保持默认 1 即可

第三步：开聊

加载完成后直接在 Chat 界面对话

模型会自动启用思维链模式，你会看到...标签包裹的推理过程。

我用看家测试题目，背影阅读理解+svg 代码生成+审美测试题测它

令我吃惊的是，它完全可以理解到

就是速度差点意思，13t/s

这是曾经一种旗舰模型都可能滑铁卢的

生成的 svg 也只能说能看吧

LM Studio 加载模型后，点击左侧的Developer标签，开启本地服务器（默认端口 1234）。然后你就能用 OpenAI SDK 直接调用：

from openai import OpenAI

 client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lmstudio"
)

 response = client.chat.completions.create(
    model="Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-GGUF",
    messages=[
        {"role": "user", "content": "用Python写一个LRU缓存，要求线程安全"}
    ],
    temperature=0.6,
    top_p=0.95,
    max_tokens=8192
)

 print(response.choices[0].message.content)

甚至可以直接对接 Claude Code：

    "ANTHROPIC_AUTH_TOKEN": "lm-studio-local",
    "ANTHROPIC_BASE_URL": "http://localhost:1234",
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled",
    "ANTHROPIC_MODEL": "qwen3.5-9b-claude-4.6-opus-reasoning-distilled"

本地蒸馏模型驱动 Claude Code，白嫖到底，就问你香不香。

工具调用能力

请在当前目录下创建一个名为 debug_test.py 的 Python 脚本，代码内容是计算 1 到 10
的平均值，但请在代码中故意留下一个逻辑错误（比如除以 或者变量名写错）。接着运行这个脚本，捕获错误日志，分析原因并自动修复它，最后再次运行以确保输出正确的平均值

结果write_file、run_shell_command、read_file、write_file、run_shell_command一路下来都是 ok 的

能不能干点稍微重点的活儿呢？

有点难，比如查找 skills 调用 skills

看起来是瞎编的

本地有的他也要 web search

除非你特殊强调

它很慢，又特别能思考，我实在没有精力等下去了，一下午荒废了。。。

算是帮大家踩过了，看的脑仁疼

总结

可以玩玩，但是能力有限，需要劳心费神

或许 27B 会好很多，至少评论区这么说

再挖个坑吧

-Opus .5

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

实测 Claude-Opus-4.6蒸馏版Qwen3.5，9B 已能打，用LM-Studio本地跑，对接 Claude Code

热搜

热门跟贴

热搜

热门跟贴

相关推荐

神操作再现，单卡3090 起跑！Claude-4.6-Opus蒸馏Qwen3.5-27B

别折腾ClawBot了！阿里QoderWork：只要会打字，电脑就能自己干活

“传统设计流程已死”！IDE成Claude设计负责人新宠：Anthropic人人写代码，最不怕Bug

版本差了几代根本打不过

全部代码调好，一个勤演奏，一个欠挨揍！

兄弟你的技术需要提升看看我的吧

现在的网络主播都是这样配套，殊不知已经被淘汰，现在都是AI了

直接造冒蓝火加特林，不香吗

解决不了问题就升级问题

按照说明书上用啊！射程300误差1700，一误一个准

UniPat AI开源SWE-Vision：五百行代码打造SOTA视觉智能体！

编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习

一键生成PPT和科研绘图，北大开源Paper2Any，全流程可编辑

以「图」破局，HyperOffload定义超节点存储管理新范式

GEO已死，AEO是答案

李坚强理性批驳赵少康言论 逻辑清晰

AI读不懂文档结构？计算所重构Agentic RAG文档推理能力

一手实测首个龙虾模型：长路径任务不失误，一人包揽全栈开发

虾骑马！龙虾圈传了一周的匿名模型，原来是它｜附最新体验细节

李坚强理性批驳赵少康言论逻辑清晰