打开网易新闻 查看精彩图片

AI 在不断演进,推理模型对 Token 的需求不断增加,对 AI 基础设施的每一层都提出了新的要求。如今,计算能力比以往任何时候都更需要实现高效扩展,以最大化 Token 产出,并提高模型创作者和用户的工作效率。

现代 GPU 已在接近峰值容量下运行,每一代产品都在推动吞吐量的不断提升,但系统性能越来越多地受限于智能体循环中由 CPU 负责的串行任务,这是核心计算机科学原理“阿姆达尔定律”的典型体现。

这一趋势在两类工作负载中尤为明显:用于训练模型掌握编程或工程等新专业技能的强化学习(RL),以及智能体操作,使 AI 智能体能够使用网页浏览器、数据库、代码解释器和其他软件等工具来完成现实环境或沙盒中的任务。

这两类工作负载融合了两种过去截然不同的 CPU 特性。单个环境需要强大的单线程性能,像工作站一样快速执行复杂的代码。与此同时,现代 AI 系统会同时启动数千个此类环境,从而产生典型的服务器基础设施大规模吞吐量需求。

NVIDIA Vera CPU 专为现代 AI 工作负载而设计,其关键设计特性包括:

  • 极致单核性能

单个任务的快速执行至关重要,并且必须在大量并发用户和智能体任务的恒定负载下维持性能。

  • 每核心的高显存和网络带宽

确保在负载下一致的服务等级协议(SLA),从而高效传输海量数据,以执行实时分析和上下文切换任务。

  • 高效的机架级协同设计

AI 工厂必须快速部署和管理容量,以满足智能体需求,同时最大化能效。

无论是将 Vera CPU 直接连接到加速器,还是在网络末端的独立 CPU 上执行任务,基于 Vera CPU 构建的数据中心都能最大化 AI 基础设施的投资价值。

本文将从以下几个方面,详细介绍 Vera CPU:

  • 后训练的现实情况

NVIDIA Olympus 核心

NVIDIA 可扩展一致性结构和内存子系统

  • 基于机架的智能体运行环境
  • Vera 平台和配置

以上为摘要内容,点击链接阅读完整内容:NVIDIA Vera CPU 为 AI 工厂提供高性能、高带宽和高效率 - NVIDIA 技术博客