大家好,我是 Ai 学习的老章
前几天写了一篇文章介绍 QwQ-32B
最近准备把 ollama 切成 vllm,就拿 QwQ 练练手
时间紧张,简短点写,只说重点
先来再看一下 QwQ 的优势:
基于 Qwen2.5-32B 模型训练的 QwQ 推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标以及部分通用指标达到 DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。
模型名称上下文长度
(Token 数)
最大输入最大思维链长度最大回复长度
qwq-32b
131,072
98,304
32,768
8,192
1、下载模型
建议走 modelscope 吧,毕竟 huggingface 网不通。
安装 modelscope:pip install modelscope
下载完整模型库:sudo modelscope download --model Qwen/QwQ-32B --local_dir /home/data-local/qwq-32b,将模型下载到指定的本地目录 "/home/data-local/qwq-32b" 中。
比较耗时,模型文件 40 多 GB 多样子
简单说 vLLM 是高效多 GPU 推理的企业级方案,Ollama 更适合个人用户。
安装 vllm:pip install vllm
运行大模型:
vllm serve /ModelPath/QwQ-32B --port 8000 --tensor-parallel-size 8 \--reasoning-parser deepseek_r1 --max_model_len 4096 --enable-auto-tool-choice --tool-call-parser hermes注意事项: tensor-parallel-size 只能设置为被 40 整除,比如设置 3、5、6、7 肯定不行
使用
直接上 openweb-ui
安装:pip install open-webui
运行:open-webui serve
浏览器打开 http://locahost:8080
如果是服务器部署,把 localhost 改为服务器 ip
正常注册登陆
右上角点击头像,点击管理员面板
teminal 页面会实时输出模型推理时的性能
avg generation throughput(平均生成吞吐量)
含义
avg generation throughput表示在模型根据提示生成输出文本的阶段,系统平均每秒能够生成的词元(token)数量。词元是自然语言处理中对文本进行分词后的基本单位,不同的分词方式会得到不同的词元划分结果。
计算公式
一般通过生成的词元总数除以生成这些词元所花费的总时间来计算。即:
平 均 生 成 吞 吐 量 生 成 的 词 元 总 数 生 成 词 元 的 总 时 间 ( 秒 )
实际意义
这个指标体现了模型生成文本的速度。较高的平均生成吞吐量意味着模型能够更快地生成输出内容,减少用户等待结果的时间,提升用户体验。尤其是在需要生成较长文本的场景下,如文章写作、故事生成等,该指标的重要性更加突出。
另外,使用 nvidia-smi 命令可以查看 GPU 占用情况
差不多 86 个 GB 的显存
并发测试,有空再发!
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴