DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型，双 4090本地部署，深得我心|deepseek|qwen|大模型|工作流|蒸馏

大家好，我是 Ai 学习的老章

DeepSeek-R1-0528 很强

但，即便是量化版本地部署起来也成本巨高

我还是关心 DeepSeek 同步开源的一个小型——DeepSeek-R1-0528-Qwen3-8B

看看其能否低成本地替换某些工作流中的 Qwen3:32B

本文，我用2张 4090 显卡部署它，然后和 4 卡运行起来的 Qwen3:32B 做个对比

DeepSeek-R1-0528-Qwen3-8B

这个模型是从 DeepSeek-R1-0528 的思维链蒸馏出来用于后训练 Qwen3 8B Base 而得。

通过蒸馏技术，在 AIME 2024 上达到 86.0，超越 Qwen3-8B (+10%)，媲美更大模型！

DeepSeek-R1-0528-Qwen3-8B在 2024 年美国数学邀请赛（AIME）上的开源模型中取得了最先进（SOTA）的性能，比 Qwen3 8B 提高了 10.0%，性能与 Qwen3-235B-thinking 相当。

AIME 24

AIME 25

HMMT Feb 25

GPQA Diamond

LiveCodeBench (2408-2505)

Qwen3-235B-A22B

85.7

81.5

62.5

71.1

66.5

Qwen3-32B

81.4

72.9

68.4

Qwen3-8B

76.0

67.3

62.0

Gemini-2.5-Flash-Thinking-0520

82.3

72.0

64.2

82.8

62.3

o3-mini (medium)

79.6

76.7

53.3

76.8

65.9

DeepSeek-R1-0528-Qwen3-8B86.076.361.561.160.5
下载模型

模型文件：https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B/files

在下载前，先通过如下命令安装 ModelScope

pip install modelscope

命令行下载完整模型库

modelscope download --model deepseek-ai/DeepSeek-R1-0528-Qwen3-8B --local_dir .

模型大小约 16GB

部署

看介绍，它的模型架构与 Qwen3-8B 完全相同，只是与 DeepSeek-R1-0528 共享相同的分词器配置，所以，部署的话与 Qwen3-8B 没啥区别。

用 vllm 拉起大模型

pip install --upgrade vllm
CUDA——VIDIBLE_DEVICES=4 vllm serve . --served-model-name R1-0528-Qwen3-8B 3002

默认参数的 max_model_len 是 131072，需要 18GB 的 KVcache 空间

4090 只有 24G，不够用

要想拉起来，要么降低 max_model_len，要么两张 4090

我选择后者

pip install --upgrade vllm
CUDA_VIDIBLE_DEVICES=4,5 vllm serve . --served-model-name R1-0528-Qwen3-8B 3002  --tensor-parallel-size 2

openwebui 聊天助手

测试窗口，我是用 openwebui

OpenWebUI 旨在为 AI 和 LLMs 构建最佳用户界面，为那些互联网访问受限的人提供利用 AI 技术的机会。OpenWebUI 通过 Web 界面本地运行 LLMs，使 AI 和 LLMs 更安全、更私密。

安装 openwebui 是我见过所有 chatbot 中最简单的了

# 安装
pip install open-webui
 # 启动
open-webui serve

浏览器打开 http://locahost:8080

如果是服务器部署，把 localhost 改为服务器 ip

正常注册登陆

右上角点击头像，点击管理员面板

点击设置 - 外部链接，照着抄一下，api key 随便填写

然后回到前端，左上角添加模型那里就可以找到 R1-0528-Qwen3-8B 了

teminal 页面会实时输出模型推理时的性能

推理速度可以做到 90Tokens/s

Qwen3:32B 之前我介绍过（），40Tokens/s的样子

具体测试我需要后续再写了，有点忙，先看几个简单问题的对比：

我觉得DeepSeek-R1-0528-Qwen3-8B的自我介绍非常棒

作为对比，大家可以看看我之前这篇文章：

问题2:用html写一个黑客帝国数字雨

DeepSeek-R1-0528-Qwen3-8B努力地尝试设计更多功能，比如滴答声效、闪烁效果、键盘控制和交互功能，但是，运行有bug❌

Qwen3:32B，老是本分，简单生成了数字/字母雨效果，运行正常✅

问题3:总结DeepSeek-R1-0528这篇文论

感觉上DeepSeek-R1-0528-Qwen3-8B更好一些，思考的很快（5s vs 18s），结尾还会友情提示是否需要追问某些细节

后续我再认真测试解决bug、知识问答

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型，双 4090本地部署，深得我心

热搜

热门跟贴

热搜

热门跟贴

相关推荐

中科院软件所开源首个本地通用幻灯片智能体，9B参数打平GPT-5

“妈，门口要钱，我们就不进去看你了”，游客在壶口瀑布外拍视频被投诉侵权，山西壶口瀑布景区：事发地是陕西壶口瀑布，我们也是受害者

神秘霸榜模型现真身:小米MiMo-V2 Pro,国内首个万亿参数+1M上下文

全国两会后首“虎”任上落马

大模型的下半场，属于拥有云+AI全栈引擎的玩家

首推舱驾一体智能架构 千问大模型上车 智己LS8即将预售

科大国创：科大国创星云大模型获得了昇腾兼容性相关认证

江苏出台城市发展行动方案：推动6市与上海大都市圈深度融合

600年前城砖上出现“刘德華”？南京官方回应

上海百年老店官宣闭店！曾经去吃顿饭可要一大早就排长队，承载了几代人的记忆，不少阿姨爷叔的“第一次”

广东一省考生P高14分吓退对手 被发现后道歉:我挺卑劣

多地宣布：生物地理不再计入中考总分；媒体评论：当下中考改革，不是比谁最会背书、刷题，而是比谁更有自己的想法、内驱力

男子给小猫讲数学题，刚讲两句就全员睡成一团。 网友：我点开视频就开始困了~ #睡个好觉

15个水饺只卖5元！广州一水饺店生意火爆：人均消费8元，客人实测“个头正常味道还可以”

暖心！男子在机场不慎丢失手机，找到后“解锁”惊喜视频

第二轮土地承包到期后再延长30年试点

油菜花期打药如何兼顾保护蜜蜂？农业农村部回应

法国外长：加拿大未来或许可以加入欧盟

手机行业涨价潮来临：OPPO、vivo相继调价

早知道｜皇马拜仁会师欧冠1/4决赛

首推舱驾一体智能架构千问大模型上车智己LS8即将预售

广东一省考生P高14分吓退对手被发现后道歉:我挺卑劣

男子给小猫讲数学题，刚讲两句就全员睡成一团。网友：我点开视频就开始困了~ #睡个好觉