吃瓜，大模型推理引擎，vLLM和SGLang 杠起来了|sglang|vllm|大模型|模型推理引擎|深度思考模型

大家好，我是 Ai 学习的老章

vLLM和SGLang是大模型领域最著名、热度最高的两个推理引擎，也都是 DeepSeek 推荐使用的推理引擎。

vLLM 45.3K 星标
项目：https://github.com/vllm-project/vllm
文档：docs.vllm.ai

SGLang 13.4K 星标
项目：https://github.com/sgl-project/sglang
文档：docs.sglang.ai/

纯个人感受，我还是比较喜欢 vLLM，之前多次用 vLLM 引擎部署过大模型：

说回标题，vLLM 前几天发了一个性能更新的推，测试了在 8x H200 上，vLLM 在 DeepSeek V3/R1 模型的吞吐量方面领先，还期待与 DeepSeek 的推理引擎开源计划合作，实现进一步的提升。

这里面有两个点

一是它配图中对比了不同场景下与 SGLang 和 TensorRT 这两个推理引擎的对比数据，vLLM 短进短出情况下遥遥领先，后面几个场景中 SGLang 甚至被 TensorRT 超越

二是它期待的与 DeeSeek 的开源合作，这是前几天 DeepSeek [[2025-04-19-刚刚，DeepSeek 宣布，准备开源推理引擎]] 中说到其开源引擎是基于 vllm 魔改，准备开源

然后 SGLang 直接回应了这条，并置顶了回复：我们对比了 vLLM 0.8.4 和 SGLang 0.4.5.post1 的离线性能。基准测试结果表明，SGLang 在所有情况下都优于 vLLM，大多数情况下领先约 10%，最大领先幅度为 38%。

也有网友表示，可以轻松调整 SGLang，使其性能比 vLLM 高出 23%。

lmsysorg 联合创始人 Lianmin Zheng 亲自下场，表示 vLLM 发布的基准测试结果存在明显的误导性，SGLang 官方可以测出比 vLLM 更好的结果。并生成这已经不是 vLLM 第一次分享误导性信息，应该考虑删除这篇帖子以维护声誉。

然后 vLLM 连续发布了两个测试结果，表示没有发布误导性的结果，它可以通过精确的命令和环境重现。

Lianmin Zheng 说vLLM后续这两张图中 TRT - LLM 结果在 ShareGPT 上比之前快两倍，在 1k - in - 2k - out 上比之前快 1.6 倍，SGLang 也是如此，这恰好证明了之前的结果存在误导性。

话说，类似测试、打脸、再测试属实没什么意义。各家的推理引擎都在不断进行各种优化，即便是同一版本的模型，各家进行测试时，本身就更倾向于对自家引擎的各种参数设置上多加权衡，而对竞争对手的引擎的参数可能考虑就没有那么多了。

这一波，我站SGLang，vLLM自己测试可以，在某个版本上提升多少随便怎么吹都可以，没必要拉上SGLang和TensorRT。

最后，我建议两家别吵了，同时建议大家感受一下我最近在用的 Xinferece v 1.5，它直接支持了vllm、sglang、llama.cpp、transformers、MLX等推理引擎，还提供了可视化界面管理各种大模型。

配置与使用方式详见文档：https://inference.readthedocs.io/zh-cn/latest/models/virtualenv.html

更新指南

pip：pip install 'xinference==1.5.0'
Docker：拉取最新版本即可，也可以直接在镜像内用 pip 更新。

️ 功能增强

Gradio 聊天界面支持展示思考过程（需打开“解析思维过程”）
Vision 模型支持 min/max_pixels 控制输入分辨率
模型下载支持进度显示与取消
⚙️ 默认并发数设置为 CPU 核心数
支持 InternVL3 的 AWQ 推理
️ 默认使用最新版 xllamacpp 引擎

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

吃瓜，大模型推理引擎，vLLM和SGLang 杠起来了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Steering：从底层机理到系统评估，全面破解大模型行为控制之谜

什么是Token？5分钟彻底搞懂 大模型Token 原理、计算方式与作用详解！

东南大学发布纪检监察垂直领域大模型

大模型的下半场，属于拥有云+AI全栈引擎的玩家

大模型学员平均年薪37.8w？我要验牌！

大模型“胡说乱编”怎么解决？中国科学院专家：高质量科学数据是关键

女子乘船时同大雁“齐飞”，两手轻抚托举画面和谐美好

美方已与古巴会谈：要求古巴引入"星链" 释放政治犯

湖北松滋市教育局通报“某学校要求走读生将背包改为透明书袋”：已责令涉事学校立即纠正、认真整改

让LLM不再话痨，快手HiPO框架来了

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

你刷到的视频是真的么？用物理规律拆穿Sora谎言

特斯拉 + 豆包 + DeepSeek 真快来了？<车机语音大模型服务>已备案！

“领小姐姐看电影不买吃喝好意思么”，山东临沂一影院条幅令人不适，当地：已要求处理

格力回应铝线电机争议：相关工程机已停产，海信称靠多三两铜多500元时代已终结

霍尔木兹海峡，通航新消息！

黎巴嫩再成战场 民众：在这没有人没有失去过亲近的人

男子爬上泰山“五岳独尊”石刻拍照，景区：将核查其身份进行处理

周亮被免去国家金融监督管理总局副局长职务

小伙80万元开面馆十几天倒闭，两年后40万开包子店，日营业额过万正筹备第二家门店

什么是Token？5分钟彻底搞懂大模型Token 原理、计算方式与作用详解！

黎巴嫩再成战场民众：在这没有人没有失去过亲近的人