SK 海力士近期发表一篇 IEEE 论文,提出一种全新架构:在同一中介层(interposer)上,将高带宽内存(HBM)的速度高带宽闪存(HBF)的容量相结合,并直连 GPU,用以加速 AI 大模型与智能体的推理处理。

目前的 GPU,以及即将推出的英伟达 Rubin 架构,均通过中介层连接 HBM,为 GPU 核心提供高速、高带宽的数据供给。但随着 AI 大语言模型(LLM)规模不断扩大,HBM 容量不足的问题愈发突出,数据不得不从速度更慢的本地 SSD 中调取,显著拉长了推理耗时。

HBF 的访问速度虽慢于 HBM,但远快于普通本地 SSD,且容量更大。SK 海力士的H³ 设计将其与 HBM 置于同一片中介层上,可让 HBF 充当 HBM 的高速缓存,大幅缩短超大模型的处理时间。

我们可以这样理解这一思路:

打开网易新闻 查看精彩图片

框图展示HBM、HBF 与 GPU 基于中介层的互联结构

未来几代 HBM 会继续提升容量与带宽,但远水难解近渴,无法及时解决当前推理延迟问题 —— 这会让 GPU 陷入显存瓶颈(memory-bound),持续等待数据。

该论文指出,H³ 架构非常适合解决推理过程中KV 缓存环节的痛点。AI 模型推理时,会将上下文记忆序列(词元与向量)以键值(KV)缓存的形式存放在 HBM 中。H³ 论文提到:

“最新的 Llama 4 大模型支持最长达
1000 万词元
的序列长度。

这一规模需要高达5.4TB 的缓存,“仅存储这些数据就需要数十张 GPU”。

英伟达的 ICMSP 软件可将 KV 缓存扩展至本地 NVMe SSD,相比 HBM 容量耗尽后重新计算词元与向量,能显著加快处理速度。

而 HBF 的优势在于:将 KV 缓存部署在更靠近 GPU的位置,省去 SSD 经由 PCIe 总线的传输延迟,提供比本地 SSD 更低的延迟、更高的带宽访问能力。

论文总结了HBF 的预期优缺点:

优势:

1.容量最高可达 HBM 的16 倍

2.带宽与 HBM 接近

劣势:

1.访问速度更慢(纳秒级 vs 微秒级)

2.写入寿命更低

3.功耗最高比 HBM 高4 倍

由于 HBF 写入寿命有限(仅约10 万次擦写循环),它最适合读密集型负载。H³ 论文摘要明确指出:

“搭载 H³ 的系统,在相同 GPU 数量下,能比纯 HBM 系统同时处理更多请求,使其非常适合 LLM 推理中的
大规模只读场景
,尤其是使用
共享预计算键值缓存
的场景。

缓存增强生成(CAG)就是典型的这类负载:

“当大语言模型接收到查询时,会读取庞大的共享预计算 KV 缓存,完成计算后输出结果。换言之,共享预计算 KV 缓存本质就是
只读
的。

H³ 架构结构详解

打开网易新闻 查看精彩图片

论文中的示意图展示了完整设计:

·D2D:裸片间直连传输

·HBM 与 HBF 控制器分别位于各自的基底裸片上

·模型权重与共享预计算 KV 缓存存放在HBF

·生成式 KV 缓存及其他数据存放在HBM

为弥补 NAND 闪存延迟较高的问题,设计在 HBM 基底裸片中集成了延迟隐藏缓存(LHB),本质是一种预取缓冲。

H³ 设计思路:GPU 边缘(周边)搭载 HBM 堆叠,GPU 与 HBM 均置于中介层上(对应图 a);HBM 与 HBF 以菊花链方式连接。

“在 HBM 基底裸片内部,通过地址解码器与路由单元将内存访问分为两路:一路访问 HBM,另一路访问 HBF。如此一来,GPU 可
通过
HBM 基底裸片直接访问 HBF

简单说:HBM 与 HBF 共同作为 GPU 的主存。示意图中的全局统一编址方案显示:

“GPU 主机使用统一地址空间,划分不同区域分别访问 HBM 与 HBF。”

性能测试数据

SK 海力士 H³ 架构仿真测试环境:英伟达 Blackwell GPU(B200)+ 8 颗 HBM3E 堆叠 + 8 颗 HBF 堆叠。

性能对比纯 HBM 方案:

·100 万词元场景:吞吐量提升1.25 倍

·1000 万词元场景:吞吐量提升6.14 倍

能效表现:相比仅配备 8 颗 HBM、无 HBF 的 Blackwell GPU,每瓦性能提升 2.69 倍

在 1000 万词元 KV 缓存测试中:HBM+HBF 方案可同时处理的查询数(批次大小),是纯 HBM 方案的18.8 倍。原本需要 32 张 GPU+HBM 才能完成的负载,借助 HBF 仅需2 张 GPU即可实现,大幅降低功耗。

文末摘要(论文官方摘要)

大语言模型(LLM)推理需要海量内存来处理长序列,而高带宽内存(HBM)的容量限制带来了巨大挑战。高带宽闪存(HBF)是一种基于 NAND 闪存的新型存储器件,拥有接近 HBM 的带宽与远超 HBM 的容量,但同时存在访问延迟更高、写入寿命更短、功耗更大等缺点。

本文提出H³ 混合架构,旨在充分发挥 HBM 与 HBF 各自的优势:将只读数据存放在 HBF,其他数据存放在 HBM。

搭载 H³ 的系统,在相同 GPU 数量下可处理更多并发请求,非常适合 LLM 推理中大规模只读场景,尤其是使用共享预计算键值缓存的场景。

仿真结果表明:采用 H³ 的 GPU 系统,每瓦吞吐量最高提升 2.69 倍,验证了 H³ 在处理超大只读数据 LLM 推理时的高性价比。

西门子EDA直播报名(4月2日)