lmdeploy v0.10.2版本更新详解：新特性、性能优化与重要修复|lmdeploy|引擎|性能优化|调用

lmdeploy v0.10.2已正式发布，本次更新带来了多个新功能、性能提升以及重要的 Bug 修复，同时在架构与依赖环境方面也进行了优化。以下为详细更新内容解析：

新功能

1.新增 /generate API
v0.10.2版本中新增了/generateAPI，为开发者提供更便捷的文本生成接口，简化调用流程。
2.TurboMind 引擎的 xgrammar 引导解码
更新中加入了基于xgrammar的引导解码功能，适用于 TurboMind 引擎，可更精确控制生成输出结构。
3.PyTorch 引擎的 xgrammar 引导解码重实现
对 PyTorch 引擎的引导解码进行了重构，以统一与 TurboMind 引擎在功能逻辑上的一致性。

性能与功能改进

1.Ascend 芯片支持 aclgraph
进一步提升在昇腾设备上的兼容性与推理性能。
2.推理引擎与异步引擎之间增量输出性能优化
利用推理过程的增量输出能力，在推理引擎与异步引擎之间提升整体吞吐与响应速度。
3.优化 multinomial 采样
改进采样算法，减少延迟，提高生成质量与效率。

Bug 修复

•zmqrpc 限制为 localhost
修复通信绑定范围问题，提高安全性。
•修复 dp+tp 预热问题
消除分布式并行与张量并行预热过程中的异常。
•修复 dllm 长上下文问题
改善长上下文场景的稳定性与正确性。
•修复 GPT-OSS 流式工具调用解析错误
保证工具调用过程的解析与执行正确。
•调整资源释放逻辑至推理引擎
优化异步与推理引擎的资源管理，避免潜在泄露。
•修复引导解码过程中 tokenizer 解析错误
保证引导解码功能的稳定性。
•修复工具调用与多模态输入的 message content 字段处理问题
增强多模态与工具调用消息结构的正确性。
•修复 kimi-k2 构建问题
改善构建稳定性。
•跳过不必要的采样并修复随机偏移
减少冗余计算并解决偏移误差。
•修复 ignore_special_tokens 为 False 时 stop_token_string 重复问题
保证生成结果准确无重复。

其他更新

• 移除 CUDA 11.8 支持，升级 CI/CD 至CUDA 12.6/12.8
• 删除profile_generation.py及相关测试用例
• 重构评测流程，将 eval 拆分为 API 评测，并新增 h800 测试工作流
• 新增NVIDIA Jetson平台的 Docker 镜像
• 重构 API 测试为llm judger评测
• 检查并优化颜色日志输出
• 更新 API 测试集，支持 HLE 与 LCB 数据集
• 更新昇腾环境依赖要求
• 版本号提升至v0.10.2

总结

本次lmdeploy v0.10.2的更新不仅引入了用户期待的/generate API和引导解码功能，还在推理性能、采样效率以及兼容性方面都做了显著提升。同时通过系列 Bug 修复，进一步保证了在多场景下的稳定性与准确性。如果你正在使用 lmdeploy，建议尽快升级到 v0.10.2，以获得更好的体验与支持。