IEEE论文：用HBF重塑HBM|gpu|hbm|内存|英伟达|速度|闪存

SK 海力士近期发表一篇 IEEE 论文，提出一种全新架构：在同一中介层（interposer）上，将高带宽内存（HBM）的速度与高带宽闪存（HBF）的容量相结合，并直连 GPU，用以加速 AI 大模型与智能体的推理处理。

目前的 GPU，以及即将推出的英伟达 Rubin 架构，均通过中介层连接 HBM，为 GPU 核心提供高速、高带宽的数据供给。但随着 AI 大语言模型（LLM）规模不断扩大，HBM 容量不足的问题愈发突出，数据不得不从速度更慢的本地 SSD 中调取，显著拉长了推理耗时。

HBF 的访问速度虽慢于 HBM，但远快于普通本地 SSD，且容量更大。SK 海力士的H³ 设计将其与 HBM 置于同一片中介层上，可让 HBF 充当 HBM 的高速缓存，大幅缩短超大模型的处理时间。

我们可以这样理解这一思路：

框图展示HBM、HBF 与 GPU 基于中介层的互联结构

未来几代 HBM 会继续提升容量与带宽，但远水难解近渴，无法及时解决当前推理延迟问题 —— 这会让 GPU 陷入显存瓶颈（memory-bound），持续等待数据。

该论文指出，H³ 架构非常适合解决推理过程中KV 缓存环节的痛点。AI 模型推理时，会将上下文记忆序列（词元与向量）以键值（KV）缓存的形式存放在 HBM 中。H³ 论文提到：

“最新的 Llama 4 大模型支持最长达

1000 万词元

的序列长度。

这一规模需要高达5.4TB 的缓存，“仅存储这些数据就需要数十张 GPU”。

英伟达的 ICMSP 软件可将 KV 缓存扩展至本地 NVMe SSD，相比 HBM 容量耗尽后重新计算词元与向量，能显著加快处理速度。

而 HBF 的优势在于：将 KV 缓存部署在更靠近 GPU的位置，省去 SSD 经由 PCIe 总线的传输延迟，提供比本地 SSD 更低的延迟、更高的带宽访问能力。

论文总结了HBF 的预期优缺点：

优势：

1.容量最高可达 HBM 的16 倍

2.带宽与 HBM 接近

劣势：

1.访问速度更慢（纳秒级 vs 微秒级）

2.写入寿命更低

3.功耗最高比 HBM 高4 倍

由于 HBF 写入寿命有限（仅约10 万次擦写循环），它最适合读密集型负载。H³ 论文摘要明确指出：

“搭载 H³ 的系统，在相同 GPU 数量下，能比纯 HBM 系统同时处理更多请求，使其非常适合 LLM 推理中的

大规模只读场景

，尤其是使用

共享预计算键值缓存

的场景。

缓存增强生成（CAG）就是典型的这类负载：

“当大语言模型接收到查询时，会读取庞大的共享预计算 KV 缓存，完成计算后输出结果。换言之，共享预计算 KV 缓存本质就是

只读

的。

H³ 架构结构详解

论文中的示意图展示了完整设计：

·D2D：裸片间直连传输

·HBM 与 HBF 控制器分别位于各自的基底裸片上

·模型权重与共享预计算 KV 缓存存放在HBF

·生成式 KV 缓存及其他数据存放在HBM

为弥补 NAND 闪存延迟较高的问题，设计在 HBM 基底裸片中集成了延迟隐藏缓存（LHB），本质是一种预取缓冲。

H³ 设计思路：GPU 边缘（周边）搭载 HBM 堆叠，GPU 与 HBM 均置于中介层上（对应图 a）；HBM 与 HBF 以菊花链方式连接。

“在 HBM 基底裸片内部，通过地址解码器与路由单元将内存访问分为两路：一路访问 HBM，另一路访问 HBF。如此一来，GPU 可

通过

HBM 基底裸片直接访问 HBF

简单说：HBM 与 HBF 共同作为 GPU 的主存。示意图中的全局统一编址方案显示：

“GPU 主机使用统一地址空间，划分不同区域分别访问 HBM 与 HBF。”

性能测试数据

SK 海力士 H³ 架构仿真测试环境：英伟达 Blackwell GPU（B200）+ 8 颗 HBM3E 堆叠 + 8 颗 HBF 堆叠。

性能对比纯 HBM 方案：

·100 万词元场景：吞吐量提升1.25 倍

·1000 万词元场景：吞吐量提升6.14 倍

能效表现：相比仅配备 8 颗 HBM、无 HBF 的 Blackwell GPU，每瓦性能提升 2.69 倍。

在 1000 万词元 KV 缓存测试中：HBM+HBF 方案可同时处理的查询数（批次大小），是纯 HBM 方案的18.8 倍。原本需要 32 张 GPU+HBM 才能完成的负载，借助 HBF 仅需2 张 GPU即可实现，大幅降低功耗。

文末摘要（论文官方摘要）

大语言模型（LLM）推理需要海量内存来处理长序列，而高带宽内存（HBM）的容量限制带来了巨大挑战。高带宽闪存（HBF）是一种基于 NAND 闪存的新型存储器件，拥有接近 HBM 的带宽与远超 HBM 的容量，但同时存在访问延迟更高、写入寿命更短、功耗更大等缺点。

本文提出H³ 混合架构，旨在充分发挥 HBM 与 HBF 各自的优势：将只读数据存放在 HBF，其他数据存放在 HBM。

搭载 H³ 的系统，在相同 GPU 数量下可处理更多并发请求，非常适合 LLM 推理中大规模只读场景，尤其是使用共享预计算键值缓存的场景。

仿真结果表明：采用 H³ 的 GPU 系统，每瓦吞吐量最高提升 2.69 倍，验证了 H³ 在处理超大只读数据 LLM 推理时的高性价比。

西门子EDA直播报名(4月2日）

IEEE论文：用HBF重塑HBM

热搜

热门跟贴

热搜

热门跟贴

相关推荐

理论研究 | 以文为脉，赋能长江流域城市更新与协同发展

揭秘芯片制造隐形推手：CMP研磨材料市场迎颠覆性机遇| VIP洞察

俄罗斯后悔转让AL-31F技术，中国从依赖到实现技术超越

一次基因改造，导致生物变异

消息：《寻秘自然：地球往事》参加全国科普月校园公益放映活动

AI终伸向军工，亿级订单或引发新赛道扩张

NML：柔性器件则达到25.03%分子网络工程均匀化应变分布，实现机械可靠的柔性钙钛矿太阳能电池

量子纠缠的共振本质：频率与波长的非局域性质的呈现

跳出 “取代” 误区：技术正在改写创造的底层逻辑

规模化数学探索与发现

邓正红主义涌现论：从量变到质变非连续跃迁 隐性规则场临界显化

剪掉崇洋媚外，重建民族自信！

邓正红软实力哲学：“逻辑黑洞”是中国在文明演化理论的重大突破

Meta扩大与英伟达合作，行业竞争态势加剧

超节点三大特点打破通信墙，具备大带宽、低时延、内存统一编址

微软新技术把玻璃变成硬盘，一块存五千部电影，一万年不丢数据

不上云、不租卡，如何优雅地在本地微调Qwen-VL-30B？

扎克伯克与英伟达签署史诗级协议，把AI未来交给老黄全家桶

内蒙古草原名场面！狼偷不着羊，就跟藏獒贴贴，网友：前狼假寐，盖以诱敌

Hagibis推出神似经典软盘的SSD外壳，支持2230和2242长度

邓正红主义涌现论：从量变到质变非连续跃迁隐性规则场临界显化