打开网易新闻 查看精彩图片

lmdeploy v0.10.2已正式发布,本次更新带来了多个新功能、性能提升以及重要的 Bug 修复,同时在架构与依赖环境方面也进行了优化。以下为详细更新内容解析:

新功能

  1. 1.新增 /generate API
    v0.10.2版本中新增了/generateAPI,为开发者提供更便捷的文本生成接口,简化调用流程。

  2. 2.TurboMind 引擎的 xgrammar 引导解码
    更新中加入了基于xgrammar的引导解码功能,适用于 TurboMind 引擎,可更精确控制生成输出结构。

  3. 3.PyTorch 引擎的 xgrammar 引导解码重实现
    对 PyTorch 引擎的引导解码进行了重构,以统一与 TurboMind 引擎在功能逻辑上的一致性。

性能与功能改进
  1. 1.Ascend 芯片支持 aclgraph
    进一步提升在昇腾设备上的兼容性与推理性能。

  2. 2.推理引擎与异步引擎之间增量输出性能优化
    利用推理过程的增量输出能力,在推理引擎与异步引擎之间提升整体吞吐与响应速度。

  3. 3.优化 multinomial 采样
    改进采样算法,减少延迟,提高生成质量与效率。

Bug 修复
  • zmqrpc 限制为 localhost
    修复通信绑定范围问题,提高安全性。

  • 修复 dp+tp 预热问题
    消除分布式并行与张量并行预热过程中的异常。

  • 修复 dllm 长上下文问题
    改善长上下文场景的稳定性与正确性。

  • 修复 GPT-OSS 流式工具调用解析错误
    保证工具调用过程的解析与执行正确。

  • 调整资源释放逻辑至推理引擎
    优化异步与推理引擎的资源管理,避免潜在泄露。

  • 修复引导解码过程中 tokenizer 解析错误
    保证引导解码功能的稳定性。

  • 修复工具调用与多模态输入的 message content 字段处理问题
    增强多模态与工具调用消息结构的正确性。

  • 修复 kimi-k2 构建问题
    改善构建稳定性。

  • 跳过不必要的采样并修复随机偏移
    减少冗余计算并解决偏移误差。

  • 修复 ignore_special_tokens 为 False 时 stop_token_string 重复问题
    保证生成结果准确无重复。

其他更新
  • • 移除 CUDA 11.8 支持,升级 CI/CD 至CUDA 12.6/12.8

  • • 删除profile_generation.py及相关测试用例

  • • 重构评测流程,将 eval 拆分为 API 评测,并新增 h800 测试工作流

  • • 新增NVIDIA Jetson平台的 Docker 镜像

  • • 重构 API 测试为llm judger评测

  • • 检查并优化颜色日志输出

  • • 更新 API 测试集,支持 HLE 与 LCB 数据集

  • • 更新昇腾环境依赖要求

  • • 版本号提升至v0.10.2

总结

本次lmdeploy v0.10.2的更新不仅引入了用户期待的/generate API和引导解码功能,还在推理性能、采样效率以及兼容性方面都做了显著提升。同时通过系列 Bug 修复,进一步保证了在多场景下的稳定性与准确性。如果你正在使用 lmdeploy,建议尽快升级到 v0.10.2,以获得更好的体验与支持。

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。