大家好,我是 Ai 学习的老章

前几天写了一篇文章介绍 QwQ-32B

最近准备把 ollama 切成 vllm,就拿 QwQ 练练手

时间紧张,简短点写,只说重点

先来再看一下 QwQ 的优势:

基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标以及部分通用指标达到 DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。

模型名称上下文长度

(Token 数)

最大输入最大思维链长度最大回复长度

qwq-32b

131,072

98,304

32,768

8,192

1、下载模型

建议走 modelscope 吧,毕竟 huggingface 网不通。

安装 modelscope:pip install modelscope

下载完整模型库:sudo modelscope download --model Qwen/QwQ-32B --local_dir /home/data-local/qwq-32b,将模型下载到指定的本地目录 "/home/data-local/qwq-32b" 中。

比较耗时,模型文件 40 多 GB 多样子

简单说 vLLM 是高效多 GPU 推理的企业级方案,Ollama 更适合个人用户。

安装 vllm:pip install vllm

运行大模型:

vllm serve /ModelPath/QwQ-32B --port 8000  --tensor-parallel-size 8 \--reasoning-parser deepseek_r1 --max_model_len 4096 --enable-auto-tool-choice --tool-call-parser hermes

注意事项: tensor-parallel-size 只能设置为被 40 整除,比如设置 3、5、6、7 肯定不行

使用

直接上 openweb-ui

安装:pip install open-webui

运行:open-webui serve

浏览器打开 http://locahost:8080

如果是服务器部署,把 localhost 改为服务器 ip

正常注册登陆

右上角点击头像,点击管理员面板

teminal 页面会实时输出模型推理时的性能

avg generation throughput(平均生成吞吐量)

  • 含义

    • avg generation throughput表示在模型根据提示生成输出文本的阶段,系统平均每秒能够生成的词元(token)数量。词元是自然语言处理中对文本进行分词后的基本单位,不同的分词方式会得到不同的词元划分结果。

  • 计算公式

    • 一般通过生成的词元总数除以生成这些词元所花费的总时间来计算。即:

    • 平 均 生 成 吞 吐 量 生 成 的 词 元 总 数 生 成 词 元 的 总 时 间 ( 秒 )

  • 实际意义

    • 这个指标体现了模型生成文本的速度。较高的平均生成吞吐量意味着模型能够更快地生成输出内容,减少用户等待结果的时间,提升用户体验。尤其是在需要生成较长文本的场景下,如文章写作、故事生成等,该指标的重要性更加突出。

另外,使用 nvidia-smi 命令可以查看 GPU 占用情况

差不多 86 个 GB 的显存

并发测试,有空再发!

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!