从边缘到云端部署经加速的 Llama 3.2|gpu|llama|nvidia|rtx|大模型|引擎

Llama 3.2 模型集扩展了 Meta Llama 开源模型集的模型阵容，包含视觉语言模型（VLM)、小语言模型（SLM）和支持视觉的更新版 Llama Guard 模型。与 NVIDIA 加速计算平台搭配使用，Llama 3.2 可为开发者、研究者和企业提供极具价值的新功能和优化，帮助实现生成式 AI 用例。

1B 和 3B 规模的 SLM 基于 NVIDIA Tensor Core GPU 训练而成，最适合用于在各种边缘设备上部署基于 Llama 的 AI 助手。11B 和 90B 规模的 VLM 支持文本和图像输入以及文本输出。凭借多模态支持，VLM 可以帮助开发者构建需要视觉基础、推理和理解能力的强大应用。例如，他们可以构建用于图像描述生成、图像转文本检索、视觉问答和文档问答等的 AI 智能体。除文本输入外，Llama Guard 模型现在还支持图像输入护栏。

Llama 3.2 模型架构是一种自动回归语言模型，使用了经过优化的 Transformer 架构。其指令调整版本使用了监督微调（SFT）和人类反馈强化学习（RLHF）技术，以符合人类对有用性和安全性的偏好。所有模型均支持 128K 词元的长上下文长度，并通过支持分组查询注意力（GQA）针对推理进行了优化。

NVIDIA 已对 Llama 3.2 模型集进行了优化，使其能够在全球数百万个 GPU 上实现高吞吐量和低延迟，其中包括数据中心、搭载 NVIDIA RTX 的本地工作站和搭载 NVIDIA Jetson 的边缘应用。本文将介绍针对硬件和软件的优化、定制和易于部署的功能。

使用 NVIDIA TensorRT

提升 Llama 3.2 的性能

为了提供空前吞吐量和最佳终端用户体验，同时降低成本和延迟，NVIDIA 正在加速 Llama 3.2 模型集。NVIDIA TensorRT 包含了适用于高性能深度学习推理的 TensorRT 和 TensorRT-LLM 程序库。

Llama 3.2 1B 和 Llama 3.2 3B 模型在 TensorRT-LLM 中使用按比例旋转位置嵌入（RoPE）技术和其他几项优化措施（包括 KV 缓存和飞行批处理）获得加速，以支持长上下文。

Llama 3.2 11B 和 Llama 3.2 90B 模型均为多模态模型，并且包含一个视觉编码器和一个文本解码器。视觉编码器通过将模型导出为 ONNX 图并构建 TensorRT 引擎获得加速。ONNX 导出创建了一个包含内置运算符和标准数据类型的标准模型定义，主要用于推理。TensorRT 利用 ONNX 图，通过构建 TensorRT 引擎针对目标 GPU 优化模型。这种引擎能够提供各种硬件级优化，通过层和张量融合以及内核自动调整最大程度地提高 NVIDIA GPU 的利用率。

借助 TensorRT-LLM 支持的交叉注意力机制，视觉编码器的视觉信息被融合到 Llama 文本解码器中。这样一来，VLM 就能联系输入的文本进行视觉推理和理解，从而高效率地生成文本。

使用 NVIDIA NIM

轻松部署生成式 AI 解决方案

用户可使用 NVIDIA NIM 微服务将 TensorRT 优化直接部署到生产中。NIM 微服务加速了生成式 AI 模型在所有 NVIDIA 加速基础设施上的部署，包括云、数据中心和工作站等。

NIM 微服务支持 Llama 3.2 90B Vision Instruct，Llama 3.2 11B Vision Instruct，Llama 3.2 3B Instruct 和 Llama 3.2 1B Instruct 在生产中的部署。NIM 为生成式 AI 工作负载提供了经过简化的管理和编排、标准应用编程接口（API）以及带有生产就绪容器的企业级支持。世界各地的开发者、研究者和企业对整个生态系统提供了强大且日益增强的支持，目前已有超过 175 家合作伙伴将其解决方案与 NVIDIA NIM 微服务集成，他们可以从生成式 AI 应用投资中取得最大的回报。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo

定制和评估 Llama 3.2 模型

NVIDIA AI Foundry 提供了一个端到端的 Llama 3.2 模型定制平台，使用户能够获取先进的 AI 工具、计算资源和 AI 专业知识。定制模型在专有数据上进行微调，使企业能够在特定领域的任务中实现更高的性能和准确性，从而获得竞争优势。

开发者可以借助 NVIDIA NeMo 整理他们的训练数据，充分利用 LoRA、SFT、DPO、RLHF 等先进的调校技术定制 Llama 3.2 模型、评估准确性和添加护栏，以此保证模型提供适当的回答。AI Foundry 在 NVIDIA DGX Cloud 上提供专用容量并得到 NVIDIA AI 专家的支持。输出被打包成 NVIDIA NIM 推理微服务的定制 Llama 3.2 模型，该模型可部署在任何地方。

使用 NVIDIA RTX 和

NVIDIA Jetson 扩展本地推理

如今，Llama 3.2 模型已在全球超过 1 亿台 NVIDIA RTX PC 和工作站上进行了优化。为了部署在 Windows 中，NVIDIA 已对这套模型进行了优化，使其能够利用 ONNX-GenAI 运行时和 DirectML 后端实现高效运行。您可以在 NVIDIA RTX 上开始使用 Llama 3.2 3B 模型：

https://catalog.ngc.nvidia.com/orgs/nvidia/models/meta-llama-3.2-3b-onnx-int4-rtx

全新的 VLM 和 SLM 为 NVIDIA RTX 系统解锁了新的功能。为了进行演示，我们创建了一个多模态检索增强生成（RAG）管线示例。该管线结合了文本和可视化数据处理（例如图像、统计图和图表），具有更强大的信息检索和生成功能。

了解如何使用 Llama 3.2 SLM 和 VLM 在 NVIDIA RTX Linux 系统上运行此流程：

https://github.com/jayrodge/Multimodal-RAG-with-Llama-3.2

请注意，您需要一个配备 NVIDIA RTX 专业 GPU且显存在 30GB 以上的 Linux 工作站。

SLM 专为边缘设备本地部署而定制，采用了蒸馏、剪枝和量化等技术降低显存、延迟和计算要求，同时保持了重点应用领域的准确性。如要下载 Llama 3.2 1B 和 3B SLM 并将其部署到 GPU 推理能力经过优化且具有 INT4/FP8 量化功能的 Jetson 上，请参见 NVIDIA Jetson AI Lab 上的 SLM 教程：

https://www.jetson-ai-lab.com/tutorial_slm.html#llama-3-2

多模态模型为视频分析和机器人领域带来了独一无二的视觉功能，因此在边缘应用中的作用越来越突出。嵌入式 Jetson AGX Orin 64GB 支持 Llama 3.2 11B VLM：

https://www.jetson-ai-lab.com/llama_vlm.html

推动社区 AI 模型的发展

作为积极的开源贡献者，NVIDIA 致力于优化社区软件，帮助用户应对最严峻的挑战。开源 AI 模型还能促进公开透明，使用户能够大范围地分享 AI 安全性和弹性方面的工作成果。

借助 Hugging Face 推理即服务功能，开发者能够快速部署领先的大语言模型（LLM），例如在 NVIDIA DGX Cloud 上运行且通过 NVIDIA NIM 微服务优化的 Llama 3 模型集。

通过 NVIDIA 开发者计划免费使用 NIM 进行研究、开发和测试：

https://developer.nvidia.cn/developer-program

进一步探索 NVIDIA AI 推理平台，包括 NVIDIA NIM：

https://developer.nvidia.cn/nim

NVIDIA TensorRT-LLM：

https://github.com/NVIDIA/TensorRT-LLM