即刻观看回放：NVIDIA Dynamo 及其在 Kubernetes 上的推理实践|dynamo|nvidia|大模型|引擎|推理|路由

内容简介：

本次在线研讨会已于 6 月 25 日直播结束，由 NVIDIA 及阿里云技术专家主讲，围绕 NVIDIA 开源分布式推理服务框架 Dynamo 展开深度技术分享，聚焦 Agentic AI 推理部署，并分享在 Kubernetes 上基于 Dynamo 和 RoleBasedGroup (RBG) 的推理实践，此外还将分享 Dynamo 如何支持多模态和视频生成应用规模化落地。

演讲一：

NVIDIA Dynamo 1.1：面向生产级多节点 AI 推理的系统化加速

随着大模型和智能体工作流快速发展，AI 推理服务正从单 GPU、单节点优化，走向多节点、多引擎、跨存储层和 Kubernetes 原生编排。NVIDIA Dynamo 1.1 是面向生产级多节点 AI 部署的分布式推理框架，支持主流推理引擎，通过分离式部署、KV 感知路由、多级 KV Cache 卸载、冷启动优化和容错机制，帮助企业降低延迟、提升吞吐量并优化部署成本。

本次分享将聚焦 Dynamo 面向 Agent、多模态和视频生成等新型工作负载的能力，包括智能路由与优先级调度、面向多模态应用的图像编码、预填充和解码的三阶段分离 (E/P/D)，以及 embedding cache 优化，并结合典型场景、性能收益和生态集成，帮助开发者理解 Dynamo 如何支撑生成式 AI、智能体、多模态和视频生成应用的规模化落地。

演讲人：毛亦姝｜NVIDIA 资深解决方案架构师

演讲二：

当 Agentic AI 遇上 Kubernetes：NVIDIA Dynamo 推理实践

Agentic AI 对推理基础设施提出了全新挑战 —— 长时运行，工具链调用和并行子 Agent 需通过精准路由复用大量常驻共享前缀 KV Cache 来避免重复计算，会话须在 GPU 故障后无缝恢复，同时面对远比传统对话剧烈的流量波动，需灵活扩缩实现 SLA 与成本的双赢。

本次演讲将分享在 Kubernetes 上基于 NVIDIA Dynamo 和 RoleBasedGroup (RBG) 实现面向 Agentic AI 推理服务的生产经验：如何结合 KV Cache 感知路由和 KV Cache Offloading 最大化前缀命中，从而支撑长上下文 Agent 行为；通过 SLA Planner 结合负载预测与性能建模，动态调整 Prefill 与 Decode 实例规模以满足延迟目标；借助 RoleBasedGroup 实现多角色声明式管理、有状态服务连续性与协作运维以及局部故障场景下的容错与恢复方案。

演讲人：郭彤宇｜阿里云智能集团高级研发工程师