大家好,我是 Ai 学习的老章
DeepSeek-R1-0528 很强
但,即便是量化版本地部署起来也成本巨高
我还是关心 DeepSeek 同步开源的一个小型——DeepSeek-R1-0528-Qwen3-8B
看看其能否低成本地替换某些工作流中的 Qwen3:32B
本文,我用2张 4090 显卡部署它,然后和 4 卡运行起来的 Qwen3:32B 做个对比
DeepSeek-R1-0528-Qwen3-8B
这个模型是从 DeepSeek-R1-0528 的思维链蒸馏出来用于后训练 Qwen3 8B Base 而得。
通过蒸馏技术,在 AIME 2024 上达到 86.0,超越 Qwen3-8B (+10%),媲美更大模型!
DeepSeek-R1-0528-Qwen3-8B在 2024 年美国数学邀请赛(AIME)上的开源模型中取得了最先进(SOTA)的性能,比 Qwen3 8B 提高了 10.0%,性能与 Qwen3-235B-thinking 相当。
AIME 24
AIME 25
HMMT Feb 25
GPQA Diamond
LiveCodeBench (2408-2505)
Qwen3-235B-A22B
85.7
81.5
62.5
71.1
66.5
Qwen3-32B
81.4
72.9
68.4
Qwen3-8B
76.0
67.3
62.0
Gemini-2.5-Flash-Thinking-0520
82.3
72.0
64.2
82.8
62.3
o3-mini (medium)
79.6
76.7
53.3
76.8
65.9
DeepSeek-R1-0528-Qwen3-8B86.076.361.561.160.5
下载模型
模型文件:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528-Qwen3-8B/files
在下载前,先通过如下命令安装 ModelScope
pip install modelscope
命令行下载完整模型库
modelscope download --model deepseek-ai/DeepSeek-R1-0528-Qwen3-8B --local_dir .
模型大小约 16GB
部署
看介绍,它的模型架构与 Qwen3-8B 完全相同,只是与 DeepSeek-R1-0528 共享相同的分词器配置,所以,部署的话与 Qwen3-8B 没啥区别。
用 vllm 拉起大模型
pip install --upgrade vllm
CUDA——VIDIBLE_DEVICES=4 vllm serve . --served-model-name R1-0528-Qwen3-8B 3002
默认参数的 max_model_len 是 131072,需要 18GB 的 KVcache 空间
4090 只有 24G,不够用
要想拉起来,要么降低 max_model_len,要么两张 4090
我选择后者
pip install --upgrade vllm
CUDA_VIDIBLE_DEVICES=4,5 vllm serve . --served-model-name R1-0528-Qwen3-8B 3002 --tensor-parallel-size 2
测试窗口,我是用 openwebui
OpenWebUI 旨在为 AI 和 LLMs 构建最佳用户界面,为那些互联网访问受限的人提供利用 AI 技术的机会。OpenWebUI 通过 Web 界面本地运行 LLMs,使 AI 和 LLMs 更安全、更私密。
安装 openwebui 是我见过所有 chatbot 中最简单的了
# 安装
pip install open-webui
# 启动
open-webui serve浏览器打开 http://locahost:8080
如果是服务器部署,把 localhost 改为服务器 ip
正常注册登陆
右上角点击头像,点击管理员面板
点击设置 - 外部链接,照着抄一下,api key 随便填写
然后回到前端,左上角添加模型那里就可以找到 R1-0528-Qwen3-8B 了
teminal 页面会实时输出模型推理时的性能
推理速度可以做到 90Tokens/s
Qwen3:32B 之前我介绍过(),40Tokens/s的样子
具体测试我需要后续再写了,有点忙,先看几个简单问题的对比:
我觉得DeepSeek-R1-0528-Qwen3-8B的自我介绍非常棒
作为对比,大家可以看看我之前这篇文章:
问题2:用html写一个黑客帝国数字雨
DeepSeek-R1-0528-Qwen3-8B努力地尝试设计更多功能,比如滴答声效、闪烁效果、键盘控制和交互功能,但是,运行有bug❌
Qwen3:32B,老是本分,简单生成了数字/字母雨效果,运行正常✅
问题3:总结DeepSeek-R1-0528这篇文论
感觉上DeepSeek-R1-0528-Qwen3-8B更好一些,思考的很快(5s vs 18s),结尾还会友情提示是否需要追问某些细节
后续我再认真测试解决bug、知识问答
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴