DeepSeek-V4 蒸馏 Qwen3.5，只有 9B，本地能跑|deepseek|glm|qwen|推理|蒸馏|调用

社区蒸馏热潮又起，这次主角是DeepSeek-V4 + Qwen3.5，最小一档只有 9B

HuggingFace 用户Jackrong放出了一整套合集：Qwen3.5-9B-DeepSeek-V4-Flash——9B 量级的小身板，跑的是 V4 的脑子

合集首页：https://huggingface.co/collections/Jackrong/deepseek-v4-distill

蒸馏是怎么个蒸馏

老章之前讲过蒸馏的本质，这次再用一句话总结：

大模型（DeepSeek-V4，万亿级 MoE）  当老师
小模型（Qwen3.5-9B Dense）          当学生
让学生模仿老师的「思考过程」与「输出风格」
最终拿到一个：体量小很多、能力靠近老师的模型

但这次蒸馏有几个细节挺反常识，值得展开：

1. 数据集只有 8000 条

是的你没看错——叫Jackrong/DeepSeek-V4-Distill-8000x，名字里就写了 8000

蒸馏圈里的常识是「数据越多越好」，但 Jackrong 这次反其道而行：少而精

模型卡里直接引用了一篇近期论文 Rethinking Generalization in Reasoning SFT (arXiv:2604.06628) 的两个观点：

高质量长 CoT 数据能让小模型获得跨域迁移能力
优化纪律：8000 条精选 + 短训练，比海量数据更能避免「过拟合老师风格」

简单说：让学生学到老师的推理引擎，而不是只学口头禅

2. 训练栈是 Unsloth + NVIDIA DGX

模型卡里提到的训练配置：

硬件：NVIDIA DGX
训练框架：Unsloth（梯度稳定）
合作方：硬件工程师 Kyle Hessling（@KyleHessling1）提供算力和 post-training 测试

3. 老师 DeepSeek-V4 自己就很硬

下面这张是 DeepSeek-V4 教师模型的官方性能图：

DeepSeek-V4 几个关键技术点：

1M 长上下文
Hybrid Attention + DSA（DeepSeek Sparse Attention）：KV Cache 降 90%
Engram Memory + mHC（Manifold-constrained Hyper-connections）：把事实记忆和动态推理解耦
Agent-centric：原生为多步工具调用做了优化

老师配置这么强，蒸出来的学生才有底气

评测：和 Qwen3.5-9B 原版对比

模型卡里给了一份 Q5_K_M 量化下的对照测试，由 Kyle Hessling 在同一台机器、同一套评估流程下分别跑了两个模型

下面这张是综合得分对比：

综合评测报告 Agent 推理能力（蒸馏的强项）

Agentic 推理对比工具调用

Tool Calling 对比前端代码

Front-end Design 对比评测方法说明

为了避免「自卖自夸」，作者把对照方法直接公开了：

对照评测方法

评测环境配置

老章看下来的结论：结构化推理、工具调用、前端代码这三块，蒸馏版稳吃原版——这正是教师 DeepSeek-V4 最擅长的领域

全格式覆盖：随便挑一个就能跑

Jackrong 一次性放出了 6 个版本，几乎所有本地推理框架都能直接拿来用

版本

HuggingFace 链接

原始 BF16

全精度，可继续微调

Qwen3.5-9B-DeepSeek-V4-Flash

GGUF

llama.cpp / Ollama / LM Studio 通吃

GGUF 版

MLX 4bit

Mac 极致省内存

MLX-4bit

MLX 6bit

Mac 平衡档

MLX-6bit

MLX 8bit

Mac 高质量档

MLX-8bit

MLX BF16

Mac 全精度

MLX-bf16

社区认可度可见一斑——发布几天，GGUF版下载就到了 68k

9B + 4bit，理论上 16G 内存的 M2/M3/M4 都能畅快跑——老章手上的 Mac 已经在排队

这个是给「研究党」准备的——做继续微调、自蒸馏、严肃评测都需要从原始权重出发

推荐用法

模型卡里给了一组建议参数：

temperature = 0.7 ~ 1.0
# 严格代码任务：低温（0.3-0.7）
# 创造性推理：高温（0.8-1.0）
top_p = 0.95
# 用 ChatML 标准模板，推理效果最好

顺手介绍一个数据集

顺便介绍一份开源数据：GLM-5.1-Reasoning-1M-Cleaned

地址：https://huggingface.co/datasets/Jackrong/GLM-5.1-Reasoning-1M-Cleaned

100 万条从 GLM-5.1 收集清洗过的推理样本——注意这个有意思的细节：

蒸馏目标是 DeepSeek-V4
底座模型是 Qwen3.5
训练数据是 GLM-5.1 出来的

社区蒸馏越来越像「调鸡尾酒」——每个组件都从开源生态里挑最合适的

虽然这次 Flash 模型只用了 8000 条 V4 蒸馏数据，但 1M 这份大数据集给后续做 SFT、做自己的蒸馏方案的人留了很多空间

老章的看法

这套合集最戳老章的几个点：

1. 9B 是真·甜点尺寸

放在两年前你说 9B 够用，没人信。但今天的 9B 蒸馏模型，常规问答、代码、Agent 推理基本能顶过去 30B 老模型——这就是「教师→学生」蒸馏路线的红利

2. 8000 条 vs 100 万条的对照

用极少的高质量数据，配上短训练周期，做出能打的小模型——这条路证明了「数据质量 >> 数据量」在蒸馏场景的价值

3. 全平台覆盖

GGUF + MLX 几乎覆盖所有本地推理栈，下载就能用，不挑显卡不挑系统——这是给个人开发者最大的善意

4. 评测开放

Kyle Hessling 把评测方法、对照基准、原始数据都放出来了，社区可以复现——这种透明度比闭门跑分实诚得多

适合谁：

想本地跑推理模型、又不想上 32B/70B 的开发者
Mac 用户（MLX 全套支持）
Agent / 工具调用 / 前端代码场景
想做继续微调或自蒸馏的研究者

不太适合：

严肃生产环境——蒸馏小模型在长文档、超复杂多轮场景下还是会比满血 V4 弱一截
期待中文创作能力跨级提升的——蒸馏更多保留逻辑能力，文风创意没那么强

总结

DeepSeek-V4 蒸馏到 9B、6 种格式全平台覆盖、社区免费送、评测全公开——本地大模型的入门门槛又被踩低一截

老章建议：Mac 用户先上 MLX 4bit，PC 用户上 GGUF，机器够强的可以拉 BF16 自己玩

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

热门新闻

中方亮出底牌绝不妥协！荷兰下令光刻机封锁，全球有国家急了？

记者：埃梅里对阵拜仁时极为出色，他应该担任法国主力右后卫

这下难了，ESPN记者：湖人已经不对东契奇本轮复出抱有幻想

皇马啥情况？82被队友打进医院，姆总“大笑离场”

周喜安被判死缓：在两省共受贿过亿 被指学术成就丰富

女教师遇害案22年后再审 丈夫故意杀人罪成立被判无期

意大利小偷撬门入室 两名华人追出去将其打死被判17年

中国新型100式主战坦克正式服役，1500马力发动机续航里程600公里

微妙时刻伊朗外长访华 期间用中文发帖"伊方信任中方"

5月8日精选热点：商业航天5月三大火箭密集发射 这些供应商要起飞

"4只皮皮虾1035元"店家否认宰客:拿货价就700多元1斤

媒体：伊朗外长"抢先"访华 中方发布的通稿信息量很大

特斯拉4月上海超级工厂交付量同比增长36%，Model Y L亚太市场开启交付

高瓴资本无敌重仓，最大、最强、最被低估的创新药黑马，没有之一！

房客退租被扣600元押金：房东指天花板说有霉斑污渍

敲响警钟！长沙88家检测机构被约谈，行业进入常态化严管周期

美油布油双双下挫5% 美油跌破每桶90美元

女孩体验悬崖秋千坠亡 有网友3月预言"一年内准出事"

每周多达三次！萨摩亚女足球员，被指控：性侵14岁美国男孩！

周喜安被判死缓：在两省共受贿过亿被指学术成就丰富

女教师遇害案22年后再审丈夫故意杀人罪成立被判无期

意大利小偷撬门入室两名华人追出去将其打死被判17年

微妙时刻伊朗外长访华期间用中文发帖"伊方信任中方"

5月8日精选热点：商业航天5月三大火箭密集发射这些供应商要起飞

媒体：伊朗外长"抢先"访华中方发布的通稿信息量很大

女孩体验悬崖秋千坠亡有网友3月预言"一年内准出事"