vLLM 是咱们公众号的常客了,关于它我之前写过:
今天聊点新消息——vLLM 真的赢完了
Artificial Analysis 把全球推理供应商按吞吐速度做了个排行榜,DigitalOcean 用 vLLM 跑出来的部署直接登顶,三个前沿开源模型上全部第一
上周 DigitalOcean 自己发了一篇推理基准测试,涉及三个前沿开源模型:
DeepSeek V3.2:单用户输出速度峰值 230 TPS,是大多数供应商的 4 倍以上
Qwen 3.5 397B:在 Artificial Analysis 测的 12 家供应商里第一,10,000 token prompt 的 TTFT 小于 1 秒
MiniMax-M2.5:同样登顶
底下跑的引擎是谁?vLLM
老章感受:
"开源引擎打赢闭源全家桶"这件事,以前大家觉得是理想,现在变成了榜单事实
而且关键是——这些优化全在 vLLM main 分支或正在合入,不是私有 fork
所以你拿 vLLM 自己部署,理论上能复现这些数字
vLLM 怎么做到的
按模型一一拆,每个模型一个瓶颈,一个对应解法:
1. DeepSeek V3.2:低 batch 下的内核融合
在低 batch size 下,DeepSeek V3.2 卡在 GPU kernel launch overhead,不是算力
每层 Transformer 要发 30 多个独立 kernel——归一化、rotary embedding、量化、KV cache 写入,每个 kernel 本身在 GPU 上是微秒级,但 launch 成本叠起来比计算还大
vLLM 的做法是沿 attention 路径做 op fusion,把 Q/KV 归一化、Q/KV 的 rotary embedding、indexer 的 layer norm + rotary、FP8 量化、KV cache 写入合到两个 fused kernel里
每层 kernel 数从 ~33 砍到 ~10,batch size 1 时 1.28× 加速(85.8 → 109.3 tok/s on 4× GB200,无 MTP)
在 8× B300 单节点 concurrency=1 下:
不开 MTP(TP=8):125 tok/s
开 MTP=1(TP=8):234 tok/s(draft 接受率约 90%)
prefill/decode disaggregation(TP=4 + TP=4 + MTP=3): 262 tok/s
外加:
新的 router GEMM kernel ,专门为 DSv3 MoE routing 维度优化,batch 1 再加 6%(PR )
稀疏 attention 的 TopK kernel ,按 sequence length 自动选算法,单 CUDA graph 适配所有情况,128K 上下文 decode 单 token 延迟 下降17%(PR )
这套同样喂给了 vLLM 的 DeepSeek V4 支持,Q RoPE + quant 和 QK norm 的 fusion 直接复用
下图是 Artificial Analysis 上 DeepSeek V3.2 各供应商的 output speed 对比,vLLM 那条直接拉爆:
2. MiniMax-M2.5:EAGLE3 + 定向 kernel fusion
针对 MiniMax-M2.5 自带的特殊架构,vLLM 团队做了:
定向 kernel fusion
自训的 EAGLE3 draft model :用开源的 TorchSpec + vLLM 训出来,虽然主模型架构独特,但 draft 模型流程是通用的
关键彩蛋: 同一个 draft 也能用在 M2.7 上 ,因为架构一致
3. Qwen 3.5 397B:attention + normalization 路径融合
针对 Qwen 3.5 的 linear-attention 路径做定向 fusion,配合 attention 和 normalization 优化,吃下榜单第一
为什么这件事重要
业界常见的假设是:生产级推理性能要靠私有栈
这次 Artificial Analysis 的榜单直接打脸——一个社区驱动的开源引擎,跑在同样的 NVIDIA Blackwell Ultra 硬件上,把所有商业方案按在地上
而且优化方法完全公开——你想知道为什么快,去看 vLLM PR
总接
vLLM 这一年的进化路径大家都看在眼里:
从"性能不输 TGI"
到"吃下 LLaMA / Qwen / DeepSeek / MiniMax"
到"Omni 全模态"
到现在"Artificial Analysis 排行第一"
它做对了一件事——性能优化的代码留在主仓
任何商业方案最大的诱惑都是私有化补丁,vLLM 团队这一年顶住了这个诱惑,结果就是社区粘性越来越强,企业贡献 PR 越来越多,性能也水涨船高
如果你还在用闭源推理服务,可以认真重新评估一下了
如果你是企业自部署,这是 vLLM 的最佳时机
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
热门跟贴