大家好,我是 Ai 学习的老章

vLLMSGLang是大模型领域最著名、热度最高的两个推理引擎,也都是 DeepSeek 推荐使用的推理引擎。

vLLM 45.3K 星标
项目:https://github.com/vllm-project/vllm
文档:docs.vllm.ai

SGLang 13.4K 星标
项目:https://github.com/sgl-project/sglang
文档:docs.sglang.ai/

纯个人感受,我还是比较喜欢 vLLM,之前多次用 vLLM 引擎部署过大模型

说回标题,vLLM 前几天发了一个性能更新的推,测试了在 8x H200 上,vLLM 在 DeepSeek V3/R1 模型的吞吐量方面领先,还期待与 DeepSeek 的推理引擎开源计划合作,实现进一步的提升。

这里面有两个点

一是它配图中对比了不同场景下与 SGLang 和 TensorRT 这两个推理引擎的对比数据,vLLM 短进短出情况下遥遥领先,后面几个场景中 SGLang 甚至被 TensorRT 超越

二是它期待的与 DeeSeek 的开源合作,这是前几天 DeepSeek [[2025-04-19-刚刚,DeepSeek 宣布,准备开源推理引擎]] 中说到其开源引擎是基于 vllm 魔改,准备开源

然后 SGLang 直接回应了这条,并置顶了回复:我们对比了 vLLM 0.8.4 和 SGLang 0.4.5.post1 的离线性能。基准测试结果表明,SGLang 在所有情况下都优于 vLLM,大多数情况下领先约 10%,最大领先幅度为 38%。

也有网友表示,可以轻松调整 SGLang,使其性能比 vLLM 高出 23%。

lmsysorg 联合创始人 Lianmin Zheng 亲自下场,表示 vLLM 发布的基准测试结果存在明显的误导性,SGLang 官方可以测出比 vLLM 更好的结果。并生成这已经不是 vLLM 第一次分享误导性信息,应该考虑删除这篇帖子以维护声誉。

然后 vLLM 连续发布了两个测试结果,表示没有发布误导性的结果,它可以通过精确的命令和环境重现。

Lianmin Zheng 说vLLM后续这两张图中 TRT - LLM 结果在 ShareGPT 上比之前快两倍,在 1k - in - 2k - out 上比之前快 1.6 倍,SGLang 也是如此,这恰好证明了之前的结果存在误导性。

话说,类似测试、打脸、再测试属实没什么意义。各家的推理引擎都在不断进行各种优化,即便是同一版本的模型,各家进行测试时,本身就更倾向于对自家引擎的各种参数设置上多加权衡,而对竞争对手的引擎的参数可能考虑就没有那么多了。

这一波,我站SGLang,vLLM自己测试可以,在某个版本上提升多少随便怎么吹都可以,没必要拉上SGLang和TensorRT。

最后,我建议两家别吵了,同时建议大家感受一下我最近在用的 Xinferece v 1.5,它直接支持了vllm、sglang、llama.cpp、transformers、MLX等推理引擎,还提供了可视化界面管理各种大模型。

配置与使用方式详见文档:https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html

更新指南

  • pip:pip install 'xinference==1.5.0'

  • Docker:拉取最新版本即可,也可以直接在镜像内用 pip 更新。

️ 功能增强

  • Gradio 聊天界面支持展示思考过程(需打开“解析思维过程”)

  • Vision 模型支持 min/max_pixels 控制输入分辨率

  • 模型下载支持进度显示与取消

  • ⚙️ 默认并发数设置为 CPU 核心数

  • 支持 InternVL3 的 AWQ 推理

  • ️ 默认使用最新版 xllamacpp 引擎

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!