公众号记得加星标⭐️,第一时间看推送不会错过。
阅读前你需要了解的五件事:
这不是GPU,它也无意成为GPU。Spyre是一款75W单槽PCIe推理卡,专为IBM Z和Power系统设计。
Spyre 已在系统中投入使用。本概述是对 ISSCC 2026 上详细技术披露的总结。
长达八年的研发周期是真实且经过深思熟虑的。IBM在发布量产芯片之前,经历了五代硅芯片的研发,涵盖了三个工艺节点。
最重要的设计限制是缺少辅助电源接口。所有架构决策都源于 PCIe 插槽 75W 的功率限制。
双回路电源管理系统是 ISSCC 2026 论文中最引人注目的技术贡献。它并非营销噱头,因为与 IBM 之前使用的单回路方案相比,它确实能带来可衡量的吞吐量提升。
IBM 在今年的 ISSCC 大会上发布了其用于推理的 Spyre AI SoC 解决方案,标志着该公司历时八年的芯片研发工作圆满完成。Spyre 的概念可以追溯到 2015 年左右,当时 IBM 研究院在走廊里发起了一场关于低精度计算的讨论。在大多数业内人士都认为专用推理芯片值得开发之前,Spyre 的首个早期原型已在 2018 年的 VLSI 大会上亮相。
首款量产芯片是一款 330 平方毫米 5 纳米 SoC,拥有 256 亿个晶体管,于 2025 年面向 IBM z17 和 LinuxONE 5 上市,Power11 于年底上市。
机器学习的发展历程总体上始于2012年的AlexNet,此后的发展轨迹大致平行:一方面是硬件速度的提升和性能的优化,另一方面是模型从卷积神经网络转向推荐引擎、嵌入表或Transformer模型。2018年,GPT-2和BERT等模型尚未成为企业级主流模型,业内大多数人认为CPU足以胜任数据中心的大部分推理任务。
IBM 和其他公司一样,开始构建自己的测试芯片,以提供更高效的解决方案。最初,Spyre 只是一个内部测试项目(英特尔也做了很多类似的项目),但它似乎标志着 IBM 商业成功的开端,因为它不仅将硬件与自身系统结合使用,还应用于其咨询业务的后端。
IBM 开发 Spyre 的真正目的是什么?
在深入了解 Spyre 芯片本身之前,有必要明确一下这款芯片的实际目标用户,因为应用场景会影响此类芯片的每一个决策。
IBM 的大型机客户包括众多大型银行、保险公司和政府机构,它们都在大规模运行关键业务交易处理系统。例如,一家大型银行在处理信用卡欺诈评分时,需要在毫秒内评估每一笔交易,每秒处理数万笔交易。这些繁重的编码器级工作负载,主要是 BERT 变体和类似模型,一直是 IBM Z AI 加速的核心,其历史可以追溯到 Telum 的片上加速器。Telum 和 Spyre 的架构非常相似,因此可以根据延迟或性能需求在两者之间迁移工作负载。
Spyre 扩展了 CPU AI 加速功能,增加了对更大更复杂模型的处理能力,并为解码器类工作负载提供了完善的生成式 AI 支持。这意味着它可以满足这些工作负载逐个标记的生成需求以及不同的内存要求,而这需要可靠、精确的硬件来跟上。
Spyre从一开始就面临着一个关键的限制:这款加速器必须能够集成到IBM Z和Power系统中,而无需专用的电源基础设施。它只有一个PCIe插槽,没有辅助接口,并且功耗上限为75W。虽然可以将其与Nvidia的T4或L4系列服务器GPU进行比较,从而了解其设计理念,但Spyre最终在其中占据了截然不同的位置。
生产前五代硅芯片
IBM 的 Spyre 开发方法在当前的 AI 行业格局中并不常见。大多数公司从最初的架构到量产芯片的交付周期大约在两到三年内——尤其是初创公司,通常会很快推出第一代芯片。但 IBM 的演示文稿显示,他们花了八年时间,开发了五代测试/研究芯片,最终企业部门才决定将其纳入产品组合。
在2018年VLSI大会上展示的14nm半核芯片验证了可编程数据流架构的概念。随后在2020年,IBM推出了采用双核结构的14nm全核芯片。接着,在2021年ISSCC大会上,IBM首次亮相了7nm四核芯片,为IBM提供了跨多个核心的交叉开关带宽和内存延迟的实际数据。在2024年Hot Chips大会上,IBM展示了一款采用更密集的5nm SoC工艺、具备完整电源管理功能的32核芯片,比量产芯片的上市早了整整两年。
从 2024 年 SoC 研究阶段过渡到生产阶段,比直接从架构设计跳到流片阶段风险更低,而这正是关键所在。如今架构已具备流片能力,企业团队得以添加 RAS 功能,使其适用于 IBM 的高性能产品组合。
Spyre SoC架构
仔细观察 Spyre SoC 架构的细节,它有 32 个活跃的 AI 核心,排列成 8x4 的网格,外加两个用于提高良率的备用核心。
这意味着理论上,即使制造过程中出现一两个核心故障,芯片仍然可以作为完整的32核芯片交付。所有32个活动核心通过双向环形总线连接,整个核心阵列配备64MB片上SRAM。
每个 AI 核心被拆分为两个核心单元(corelet),每个核心单元配备 2 MB 的 L1 缓存,并且每个核心单元包含一个 8x8 的二维 SIMD 脉动阵列,该阵列由 64 个低精度数学引擎组成,用于处理大部分矩阵乘法和卷积运算。除了二维阵列之外,还有支持 FP32 的一维向量阵列,用于在低精度格式精度不足时进行激活和归一化运算。支持的格式包括 FP8、FP16、INT8 和 INT4,涵盖了现代推理中常用的量化选项,适用于编码器和解码器模型类型。
根据 IBM 的披露,Spyre SoC 的峰值吞吐量为:
FP16 排名第 98 位
FP8 时获得 157 个 TOPS 积分
INT8 最高分 315 分,
INT4 最高分 629 分。
IBM 将这款芯片与 NVIDIA 的 72W 推理卡 L4 进行了比较。Spyre 在 INT8 下的峰值性能为 315 TOPS,即每瓦 4.2 TOPS,而 L4 在 INT8 下的峰值性能为 242 TOPS,即每瓦 3.4 TOPS。
IBM 在 ISSCC 2026 上公布的数据更进一步,声称其性能比使用编码器级模型的 GPU 高 2 到 3 倍,尽管这些数据是在 IBM 的特定工作负载上测量的,并且没有使用可以直接比较的跨基准测试指标。
接下来是内存子系统,其设计选择完全受75W功耗限制的制约。虽然HBM内存能够提供工程师通常所需的带宽吞吐量,但它功耗过高,且需要更复杂、更昂贵的封装,这超出了Spyre的预算。IBM最终选择了LPDDR5内存,它拥有16个通道,运行速度为6.4Gbps,峰值带宽可达204GB/s,每张卡的总容量为128GB,并且所有可用DRAM都配备了SECDED ECC纠错保护。8个双通道LPDDR5内存模块与SoC并排安装在PCIe卡上,而不是封装在SoC的顶部或内部。
128GB 这个数字在生成式人工智能的讨论中也至关重要。相比之下,NVIDIA L4 只有 24GB。
PCIe 连接采用 Gen5 x16 接口,可提供 64 GB/s 的主机双向带宽。值得一提的是 RDMA 引擎,它允许多张 Spyre 卡通过 PCIe 直接相互传输数据,无需主机 CPU 参与,从而实现多卡扩展,避免互连成为瓶颈。
IBM Spyre 如何处理电源管理
Spyre的双回路电源管理系统是整体设计中最具技术亮点的部分。人工智能推理工作负载的功耗变化很大,而INT8矩阵乘法会显著增加电路的功耗和压力。
通过采用支持低电压运行的计算设计,其理念在于最大限度地提高设计效率。对于现代工艺节点而言,计算 IP 的最低电压仅为 0.55 伏,这确实非常低,几乎达到了 DSP 甚至比特币 ASIC 的水平。现代高性能 IP 的最低电压通常在 0.7 伏到 1.1 伏之间,功耗也随之增加。设计低 Vmin 电路本身就是一项技术,但其代价通常是较低的峰值频率。无论如何,此设计的目标都是确保其功耗控制在 75 瓦以内。
IBM 之前的做法是使用一个闭环 IIR 控制器,当功耗接近耗尽时,该控制器会使 AI 内核停止运行,类似于时间复用或占空比控制。这种方法虽然可行,但其设计较为保守,这意味着节流是基于单一时间常数下的单一设定点。
Spyre 采用双环系统完全取代了传统方法:快速的内环处理短时间内出现的峰值电流尖峰,而较慢的、由软件控制的外环则根据实际工作负载的实时行为调整平均电流目标。这两个环路采用不同的时间常数和设定点,使系统能够在短时间内安全地利用可用功率余量,同时避免在较长的功率窗口内违反平均功率限制。
根据 IBM 的 ISSCC 2026 数据,结果表明,在相同的功耗预算下,与使用单环控制器相比,推理吞吐量提高了 25%。对于编码器模型,性能提升幅度在 7% 到 32% 之间,具体取决于序列长度和配置。这并非微不足道的提升,而且完全不需要对芯片进行任何改动。
在流片之前,IBM 还做出了一些设计决策来降低整体基准功耗。AI 内核阵列本身的工作电压为 0.55V,而 SRAM 和第三方 IP 模块的工作电压为 0.75V。IBM 还做出了一个看似反直觉的选择,即使用更大的 7T 标准单元库,而不是密度更高的 6T 单元库。这是因为测试表明,由于需要额外的缓冲器,6T 单元库在 0.55V 电压下实际上消耗的功耗更高。在流片之前,将综合频率目标降低了 9%,从而成功降低了 7.5% 的功耗;而重新综合又分别节省了约 8% 的功耗和 6% 的面积。
超越单卡扩展
单张 Spyre 卡即可在其内存预算内轻松处理编码器工作负载,而大型生成式 AI 模型的情况则截然不同,许多模型在考虑批处理之前,128 GB 的内存容量根本无法满足需求。IBM 通过基于 RDMA 的多卡扩展技术解决了这个问题。在该技术中,多张卡通过 PCIe 交换机进行通信,从而实现 64 GB/s 的直接卡间 RDMA 传输,并采用 CRC 校验,完全绕过主机 CPU。
IBM 公布的针对其优化版 Granite-3.3-8B 模型的数据显示,使用四张 Spyre 卡时性能几乎呈线性扩展,而增加到八张卡时性能提升更为显著。随着卡数的增加,每张卡处理的计算任务量逐渐减少,总内存带宽随之提升,首令牌响应时间和令牌间延迟也同步改善。
满配的 IBM z17 每个托架最多支持 48 张 Spyre 卡,每个系统最多支持 192 张卡。这意味着主机安全边界内可容纳 6.1 TB 的加速器内存。IBM Power11 每个系统最多支持 16 张卡。目前没有任何同类 GPU 服务器配置能够在单个系统中提供 6 TB 的加速器内存,并达到企业级的可靠性和安全性。
Spyre是什么,它不是什么
NVIDIA 的高端硬件在最密集的系统中功耗从 700 瓦到 1200 瓦不等。未来,单芯片功耗有望达到数千瓦。例如,将 Spyre 与 TOPS 平台上的 H100 进行比较,实际上毫无意义。它们的设计环境和限制条件都截然不同。
相关比较应针对单槽企业级推理卡,因为在这些领域,每瓦功耗下的能效和内存容量比原始吞吐量更为重要。在这个领域,75瓦预算内配备128GB LPDDR5内存,传输速率达204GB/s,优势显著。NVIDIA拥有多种选择,而IBM也身处竞争激烈的市场,众多初创公司,例如Tensordyne、Tenstorrent、d-Matrix、Rebellions、Furiosa、Qualcomm、Taalas、Positron AI等,都推出了功耗从75瓦到300瓦不等的推理专用卡。
如今的关键在于将Transformer工作负载分解为预填充(计算密集型)和解码(内存带宽密集型)两部分。IBM并没有将Spyre明确归类到其中任何一部分,这表明对于其工作负载组合而言,它可以作为单卡解决方案。随着对工作负载分解理解的加深,我们或许会看到这种情况在未来发生改变。
关于 IBM Spyre 生态系统,
我们目前了解的情况
当这款芯片还在从研究芯片过渡到企业产品阶段时,IBM 举办了关于该产品线未来的演讲,其中一些演讲将利用 IBM 在制造、生产和系统规模方面的专业知识。
这是 IBM 的 Mukesh Khare 在 2022 年的照片,我们曾多次采访过他。照片中他正在展示 AIU,当时它还未更名为 Spyre。第二年,他谈到未来几代产品将着眼于利用更高速度的内存类型,并将多个芯片封装到单个 SIP 中。目前尚不清楚其目标是否仍然是 PCIe 卡,还是会转向目前高性能 AI 芯片使用的 OAM 外形尺寸。IBM 最近宣布了一项合作计划,旨在为其 CPU 启用 Arm 处理模式,我们有理由推测,Spyre 的访问权限可能也会包含在其中。
IBM Spyre SoC:总结性思考
Spyre 的核心优势在于其长达 8 年的研发历程,经历了 5 代测试芯片、3 个制程节点,并在正式交付客户之前,基于多年的实际硬件数据进行量产设计。双回路电源管理系统是一项真正的工程创新,而相比同类单槽产品,其内存容量优势对于其目标工作负载而言,也是一项切实有效的设计选择。通过 PCIe 实现跨 IBM Z 和 Power 平台部署,这一策略明智且执行得相当出色。PCIe 也意味着这些卡可以兼容 x86 和 Arm 架构,尽管 IBM 尚未公开这一应用场景。
然而,目前尚无法评估的是,运行 IBM Z 和 Power 平台的企业是否会大规模采用生成式人工智能,以至于 Spyre 的独特优势成为此类产品中的决定性因素。IBM 通常对咨询业务的硬件成本讳莫如深,所以我们可能永远无法得知答案!
(来源:编译自 morethanmoore)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4379内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴