lmdeploy v0.7.3 震撼发布！支持 Qwen3/DeepSeekV2/Llama4，性能碾压 Ollama/VLLM

moonfdd

2025-04-17 00:10 ·北京 ·优质互联网领域创作者

LMDeploy（由InternLM团队开发的高效推理引擎）迎来v0.7.3版本，带来多项重磅升级！本次更新不仅新增了对Qwen3、Qwen3MoE、DeepSeekV2、Llama4等热门模型的支持，还在Ascend NPU上优化了8bit 量化推理（W8A8），并大幅提升MOE（混合专家）模型的推理效率！

核心更新亮点

1.新模型支持

•Qwen3 & Qwen3MoE：通义千问最新开源模型，MoE 架构性能更强！
•DeepSeekV2：深度求索的高效大模型，推理速度再升级！
•Llama4：Meta 新一代开源模型，LMDeploy 率先适配！

2.⚡ Ascend NPU 优化

• 支持W8A8 低精度推理，显著降低显存占用！
•QwenVL2.5支持Graph 模式，推理速度更快！
•MOE 模型优化，Ascend 平台性能提升！

3.功能增强

•交互式 API支持spaces_between_special_tokens，优化特殊 token 处理。
•动态端口检测，避免端口冲突问题。
•Dynamo 模式修复，提升 PyTorch 兼容性。

4.Bug 修复

• 修复finish_reason返回错误问题。
• 优化MLP 激活计算，减少显存占用。
• 修复Qwen3MoE 配置解析问题。

LMDeploy vs. Ollama vs. VLLM：谁更强？

特性

LMDeployOllamaVLLM模型支持

✅ Qwen3/DeepSeekV2/Llama4

✅ Llama/Gemma

✅ Llama/Mistral

推理优化

Ascend NPU + W8A8 + MOE

❌ 依赖 CPU/GPU 原生推理

✅ PagedAttention + vLLM 引擎

低精度支持

✅ 8bit/4bit 量化

❌ 仅 FP16/FP32

✅ 8bit 量化

部署灵活性

✅ 支持 Triton/HTTP API

✅ 本地 CLI 工具

✅ FastAPI + OpenAI 兼容

性能对比

⚡Ascend 优化，MOE 加速

适合轻量级本地推理

⚡ 适合高吞吐 GPU 推理

结论：

•LMDeploy在国产芯片（Ascend）优化和MOE 模型支持上优势明显，适合企业级部署。
•Ollama适合个人开发者快速体验模型，但功能较简单。
•VLLM在GPU 高并发推理上表现优秀，但缺少 NPU 支持。

如何体验？

pip install lmdeploy==0.7.3

或参考官方文档：https://github.com/InternLM/lmdeploy

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，让AI助力您的未来发展。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴