GTC24 | 预约 LLM 推理及性能分析专题中文演讲|gpu|llm|nvidia|性能分析|推理|演讲|算法|视频生成模型

什么是 China AI Day 线上专场？

China AI Day 线上专场议程一览

GTC 2024 大会China AI Day线上专场，是 NVIDIA 为国内 AI 开发者、技术领袖和决策人举办的中文演讲专场，将于3 月 19 日上午 10:00在线举办。China AI Day 将以“大语言模型（LLM）”为主题，共分为四大专题：LLM AI Infra、LLM 云上工具链、LLM 推理及性能分析、LLM 应用，共计13场精彩演讲。将深入探讨 LLM 性能的极致优化，覆盖架构、训练、推理、量化、AI 工作流 RAG 等多个维度，并为您详细呈现 LLM 在互联网核心应用、芯片设计等领域的案例。

专场为观众提供专属福利：3 月 24 日前，上线观看 China AI Day 演讲，即可获得 NVIDIA 深度学习培训中心（DLI）大语言模型课程 75 折优惠码，请看文末具体规则解释。

扫码注册预约观看 China AI Day 的 LLM 推理及性能分析线上演讲

“LLM 推理及性能分析”专场介绍

LLM 推理的优化是一个综合性的过程，涉及模型、算法、数据、硬件等多个方面。通过综合应用这些优化措施，可以显著提升 LLM 在推理任务中的性能、效率和准确性。3 月 19 日，China AI Day 的“LLM 推理及性能分析”专题演讲邀请来自腾讯科技、美团、微软亚洲研究院和 NVIDIA的 AI 技术专家和研究员，将分享模型压缩与优化、结合 NVIDIA 软硬件技术栈的推理加速和性能分析技术、算法优化、数据预处理和特征提取等内容的最佳实践，旨在帮助参会者学习前沿的 LLM 技术理念和开发实战技巧，紧跟 AI 时代步伐。无论您是资深专家还是初学者，都能从中受益。

10:00 - 10:25

针对大模型的免训练 N:M 结构化稀疏加速

会议代码：SE63220

演讲人：李运，腾讯科技高级算法研究员

演讲简介：

在本次会议中，我们将介绍一种基于 NVIDIA Ampere 和 Hopper 架构的结构化稀疏新算法，用于加速大模型推理。考虑到传统的稀疏预训练方案需要大量的数据、硬件资源和较长的训练周期，不利于其在大模型场景中的应用。因此，针对实际的业务场景需求，我们提出了一种无需训练的方法，该方法仅需要少量的校准样本便可实现大模型的稀疏化加速，同时不损失模型效果。此外，我们还将介绍一种新的 LLM 参数评估标准和参数筛选策略，以及这种独特的 2:4 结构化稀疏加速在腾讯搜索引擎中的应用。基于所设计的 LLM 稀疏化算法和高效部署方案，可以实现 1.25X 的推理耗时加速和 44% 的显存节省。

10:30 - 10:55

美团 PyTorch 量化工具 - 设计哲学、核心特性及性能基准

会议代码：SE63223

演讲人：李庆源，美团资深技术专家

演讲简介：

随着云计算负载的持续增长，降低神经网络模型部署成本的需求变得日益迫切。模型量化作为一项关键的压缩技术，可以使模型运行更快、体积更小，并且更具成本效益。为此，我们开发了一款即插即用的量化工具包——美团 PyTorch 量化工具（MTPQ），该工具包旨在利用 NVIDIA 的 TensorRT 以及 TensorRT-LLM 生态，实现模型在 GPU 上极致的推理性能。我们将介绍这个工具包的设计理念和主要功能，并分享其在工业界广泛使用的视觉模型以及大语言模型上的性能基准测试结果。

11:00 - 11:25

基于吞吐优先的测试方法以提高各类 CUDA 工作负载的吞吐数值

会议代码：SE62274

演讲人：董建兵，NVIDIA GPU 计算团队专家

赵新博，NVIDIA GPU 计算团队专家

演讲简介：

测试和比较不同硬件平台之间的性能是一项挑战性的任务，尤其是公平地比较 GPU 和 CPU 之间的性能。多数时候，都会选择以延迟为唯一的衡量标准来进行优化，但这种方式并不是对所有的场景都适用。因为某些应用场景追求的是在满足延迟限制要求的前提下，尽可能地提升应用的吞吐能力。尽管已经有许多测试吞吐的工具，例如 NVIDIA Triton 推理服务器，但如何高效地利用这些工具来分析和优化各类 GPU 工作负载仍然是一个难题。例如，如何确定并发程度、请求速率、在延迟约束的条件下提高吞吐、支持不同的 GPU 工作负载的并发方式（如多进程、单进程多流等）等软件、硬件组合。在本次演讲中，我们提出了一种吞吐优先的测试工具，来解决上述问题。其可以充分利用每个平台的所有硬件资源，并且能够在延迟约束的条件下追求更高的吞吐数值。结合 Nsight System 和 Nsight Compute 分析工具，使用我们的测试方法来对 CUDA 应用负载进行测试分析，可以显著提升各类 CUDA 应用在 GPU 上的吞吐表现。在演讲的后半部分，我们将介绍几个案例研究，以说明我们如何使用这种测试方法来优化信息检索、推荐系统和其他真实场景的性能。

11:00 - 11:25

PIT：通过置换不变性优化深度学习模型的动态稀疏计算

会议代码：SE61664

演讲人：韩震华，微软亚洲研究院高级研究员

演讲简介：

动态稀疏性，即在运行时才确定的稀疏模式，广泛存在于深度学习任务中，但是难于优化。现有的通过预处理特定稀疏模式的方法在应对动态稀疏计算时存在很大开销。我们提出了一种名为 PIT 的针对动态稀疏计算的深度学习编译器。PIT 提出了一种新颖的平铺机制，利用了置换不变变换（Permutation Invariant Transformation），在不改变计算结果的前提下，将多种稀疏模式的 Micro-tile 拼接成可以在 GPU 上高效运行的 Dense Tile，从而实现高 GPU 利用率和低覆盖浪费。通过我们提出的 SRead 和 SWrite 原语，PIT 可以以极快的检测计算的稀疏性来快速执行。对多种模型进行的广泛评估表明，PIT 可以加速动态稀疏计算高达 5.9 倍（平均 2.43 倍）。

扫码注册预约观看 China AI Day 的 LLM 推理及性能分析线上演讲

China AI Day 观众专属福利