lmdeploy v0.11.1 版本发布：全面支持DeepSeek V3.2与DPTP，多项性能优化与Bug修复|deepseek|性能优化|版本发布|调用|路由

lmdeploy v0.11.1 于 2025 年 12 月 24 日正式发布。本次版本更新围绕功能增强、性能与架构优化、问题修复、文档完善以及工程与测试体系建设等多个方面展开，进一步提升了模型部署、推理服务和多模态场景下的整体可用性与稳定性。以下为本次版本更新的详细解读。

一、新增功能（Features）

在功能层面，v0.11.1 引入了多项重要支持能力。
首先，Ascend 平台新增了对 dptp 的支持，进一步增强了在特定硬件环境下的部署灵活性。
其次，正式支持 Deepseek v32 模型，使 lmdeploy 能够覆盖更多新一代大模型推理需求。

这些功能扩展为用户在不同模型和不同硬件架构下的部署提供了更广泛的选择。

二、改进与增强（Improvements）

在性能和功能增强方面，本次版本更新内容尤为丰富。

1. 监控与指标体系
对 metrics 进行了改进，使性能监控和运行状态统计更加完善，有助于生产环境中的观测与调优。
2. 调度与引擎优化
重构了调度器与 engine.py，优化了内部结构，提高了整体执行效率和可维护性。同时对 dp 超时时间进行了更新，使分布式场景下的任务调度更加稳定。
3. 模型与多模态支持增强
针对 Qwen3-VL 模型进行了多项改进，包括新增 vision id、增加多模态处理器参数，以及整体能力优化，显著提升了多模态推理的一致性与可扩展性。
4. 推理与请求处理能力
在请求被取消时，系统现在能够返回已路由的专家信息，提升了推理过程中的可解释性。
同时，v1/chat/completions 接口新增对 chat_template_kwargs 的支持，使对话模板配置更加灵活。
5. 内部结构与内存处理
为 dummy 输入预留 block，优化了内存使用策略；在预填充阶段构建 block trie 并增加命中率统计，提升了缓存与推理效率。

三、问题修复（Bug Fixes）

v0.11.1 对多个已知问题进行了修复，显著增强了系统稳定性和安全性。

1. 推理与路由相关修复
修复了按 query 长度拆分路由专家的问题，解决了部分场景下结果异常的问题。
修复了混合请求返回 logprobs 时的请求处理异常。
2. 多进程与分布式问题
修复了多进程环境下 HuggingFace 模块读写冲突的问题。
修复了特定硬件环境中 ray 与内存同步相关的问题。
3. 量化与数值处理修复
修复了多项与量化相关的问题，包括 quant8 的 fillkv、量化 scale-fmt 处理错误以及相关格式问题，保障了低精度推理的正确性。
4. 模型与处理器修复
修复了处理器参数错误、fope 相关问题，并移除了在 RPC 调用中可能引发 pickle 配置错误的 get_model_config 调用。
5. 安全性修复
修复了在调用 torch.load 时可能存在的不安全反序列化问题，进一步提升了系统安全性。