lmdeploy v0.11.1 于 2025 年 12 月 24 日正式发布。本次版本更新围绕功能增强、性能与架构优化、问题修复、文档完善以及工程与测试体系建设等多个方面展开,进一步提升了模型部署、推理服务和多模态场景下的整体可用性与稳定性。以下为本次版本更新的详细解读。
一、新增功能(Features)
在功能层面,v0.11.1 引入了多项重要支持能力。
首先,Ascend 平台新增了对 dptp 的支持,进一步增强了在特定硬件环境下的部署灵活性。
其次,正式支持 Deepseek v32 模型,使 lmdeploy 能够覆盖更多新一代大模型推理需求。
这些功能扩展为用户在不同模型和不同硬件架构下的部署提供了更广泛的选择。
二、改进与增强(Improvements)
在性能和功能增强方面,本次版本更新内容尤为丰富。
1. 监控与指标体系
对 metrics 进行了改进,使性能监控和运行状态统计更加完善,有助于生产环境中的观测与调优。2. 调度与引擎优化
重构了调度器与 engine.py,优化了内部结构,提高了整体执行效率和可维护性。同时对 dp 超时时间进行了更新,使分布式场景下的任务调度更加稳定。3. 模型与多模态支持增强
针对 Qwen3-VL 模型进行了多项改进,包括新增 vision id、增加多模态处理器参数,以及整体能力优化,显著提升了多模态推理的一致性与可扩展性。4. 推理与请求处理能力
在请求被取消时,系统现在能够返回已路由的专家信息,提升了推理过程中的可解释性。
同时,v1/chat/completions 接口新增对 chat_template_kwargs 的支持,使对话模板配置更加灵活。5. 内部结构与内存处理
为 dummy 输入预留 block,优化了内存使用策略;在预填充阶段构建 block trie 并增加命中率统计,提升了缓存与推理效率。
v0.11.1 对多个已知问题进行了修复,显著增强了系统稳定性和安全性。
1. 推理与路由相关修复
修复了按 query 长度拆分路由专家的问题,解决了部分场景下结果异常的问题。
修复了混合请求返回 logprobs 时的请求处理异常。2. 多进程与分布式问题
修复了多进程环境下 HuggingFace 模块读写冲突的问题。
修复了特定硬件环境中 ray 与内存同步相关的问题。3. 量化与数值处理修复
修复了多项与量化相关的问题,包括 quant8 的 fillkv、量化 scale-fmt 处理错误以及相关格式问题,保障了低精度推理的正确性。4. 模型与处理器修复
修复了处理器参数错误、fope 相关问题,并移除了在 RPC 调用中可能引发 pickle 配置错误的 get_model_config 调用。5. 安全性修复
修复了在调用 torch.load 时可能存在的不安全反序列化问题,进一步提升了系统安全性。
在文档方面,本次版本新增了 VLMEvalKit 使用指南,为多模态模型评测提供了更清晰的参考说明,有助于用户快速上手和规范化评测流程。
五、其他更新(Other)
代码地址:github.com/InternLM/lmdeploy
在工程与测试体系方面,v0.11.1 也进行了多项补充与完善。
1. 新增 FA3 支持,扩展了底层能力选项。
2. 新增分布式测试用例和生成测试用例,提升了版本质量保障能力。
3. 在持续集成流程中加入了多模态大模型评测。
4. Ascend 相关代码进行了重构,使结构更加清晰。
5. Docker 镜像构建过程中新增自动安装 serve.txt,简化部署流程。
6. 版本号正式更新至 v0.11.1。
总结来看,lmdeploy v0.11.1 是一次内容全面且扎实的版本更新,不仅扩展了模型与硬件支持范围,也在性能、稳定性、安全性和工程化能力上进行了系统性提升,非常适合在生产和研究环境中升级使用。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
热门跟贴