极简教程，4张4090，本地部署QwQ|上下文|推理|服务器|极简教程

极简教程，4张4090，本地部署QwQ

Ai学习的老章

2025-03-18 21:01 ·北京 ·优质互联网领域创作者

大家好，我是 Ai 学习的老章

前几天写了一篇文章介绍 QwQ-32B

最近准备把 ollama 切成 vllm，就拿 QwQ 练练手

时间紧张，简短点写，只说重点

先来再看一下 QwQ 的优势：

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标以及部分通用指标达到 DeepSeek-R1 满血版水平，各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。

模型名称上下文长度

（Token 数）

最大输入最大思维链长度最大回复长度

qwq-32b

131,072

98,304

32,768

8,192

1、下载模型

建议走 modelscope 吧，毕竟 huggingface 网不通。

安装 modelscope：pip install modelscope

下载完整模型库：sudo modelscope download --model Qwen/QwQ-32B --local_dir /home/data-local/qwq-32b，将模型下载到指定的本地目录 "/home/data-local/qwq-32b" 中。

比较耗时，模型文件 40 多 GB 多样子

简单说 vLLM 是高效多 GPU 推理的企业级方案，Ollama 更适合个人用户。

安装 vllm：pip install vllm

运行大模型：

vllm serve /ModelPath/QwQ-32B --port 8000  --tensor-parallel-size 8 \--reasoning-parser deepseek_r1 --max_model_len 4096 --enable-auto-tool-choice --tool-call-parser hermes

注意事项： tensor-parallel-size 只能设置为被 40 整除，比如设置 3、5、6、7 肯定不行

使用

直接上 openweb-ui

安装：pip install open-webui

运行：open-webui serve

浏览器打开 http://locahost:8080

如果是服务器部署，把 localhost 改为服务器 ip

正常注册登陆

右上角点击头像，点击管理员面板

teminal 页面会实时输出模型推理时的性能

avg generation throughput（平均生成吞吐量）

含义
- avg generation throughput表示在模型根据提示生成输出文本的阶段，系统平均每秒能够生成的词元（token）数量。词元是自然语言处理中对文本进行分词后的基本单位，不同的分词方式会得到不同的词元划分结果。
计算公式
- 一般通过生成的词元总数除以生成这些词元所花费的总时间来计算。即：
- 平均生成吞吐量生成的词元总数生成词元的总时间（秒）
实际意义
- 这个指标体现了模型生成文本的速度。较高的平均生成吞吐量意味着模型能够更快地生成输出内容，减少用户等待结果的时间，提升用户体验。尤其是在需要生成较长文本的场景下，如文章写作、故事生成等，该指标的重要性更加突出。