打开网易新闻 查看精彩图片

SK海力士在报告中指出,新架构特别适合人工智能推理。

SK海力士发布了一种以高带宽闪存(HBF)为核心的新型半导体架构概念。HBF是一种堆叠多个NAND闪存芯片的存储技术。据韩京新闻报道,该公司最近在电气电子工程师协会(IEEE)上发表的一篇论文中详细阐述了这一名为“H3”的概念。H3指的是一种混合架构,它将HBM和HBF集成到单一设计中。

正如报告指出的那样,H3 架构将 HBM 和 HBF 都放置在负责计算的 GPU 旁边,而目前的 AI 芯片(包括 NVIDIA 计划于今年下半年发布的 Rubin 平台)中,只有 HBM 被放置在 GPU 旁边。

打开网易新闻 查看精彩图片

为了评估H3设计的可行性,SK海力士进行了仿真测试。在这些测试中,该公司配置了8个第五代HBM(HBM3E)堆栈和8个HBF堆栈,并搭配NVIDIA最新的GPU Blackwell(B200)。正如报告所强调的,仿真结果表明,与仅依赖HBM的配置相比,每瓦性能提升高达2.69倍。

采用 HBF 的 H3 架构或可提升 AI 推理性能

采用 HBF 的 H3 架构或可提升 AI 推理性能

值得注意的是,正如报告所指出的,H3架构被认为特别适合人工智能推理,而人工智能推理正日益成为一个重要的领域。推理指的是模型进行推理并生成响应的能力,而这一过程的核心要素是KV缓存,它会在用户交互期间临时存储对话上下文。

报告解释说,随着人工智能模型日趋复杂,KV缓存的需求不断增长,给HBM和GPU带来了巨大压力,可能限制整体计算效率。通过部署HBF作为额外的高容量存储层来吸收KV缓存,GPU和HBM可以摆脱存储开销,专注于高速处理和生成新的输出。

SK海力士还模拟了HBF处理高达1000万个令牌的海量KV缓存的场景。报告显示,模拟结果表明,与仅使用HBM的配置相比,该系统处理并发查询(批处理大小)的能力提升了高达18.8倍。以前需要32个GPU才能完成的工作负载,现在只需两个GPU即可完成,从而显著提高了能效。

HBF商业化面临的技术挑战

HBF商业化面临的技术挑战

通过这份报告,该公司强调了HBF作为下一代人工智能存储解决方案的潜力。然而,正如报告所指出的,在商业化之前仍存在一些挑战。尽管NAND闪存具有高存储密度,但其写入速度相对较慢,尤其是在添加或修改数据时,仍然是一个关键的限制因素。

即使HBF主要用于混合架构中的读取密集型工作负载,写入性能对于KV缓存应用也变得越来越重要。报告指出,克服这一限制需要更先进的设计,包括显著提升HBF堆栈底部基极芯片的控制器性能。

尽管如此,随着HBF在人工智能内存领域发展势头强劲,标准化工作也在不断加强。据Sisa Journal报道,三星电子和SK海力士已与SanDisk签署谅解备忘录(MOU),共同推进HBF标准化,并正通过联合联盟推进相关工作。两家公司都在积极研发HBF产品,目标是在2027年实现商业化。

此前,韩国科学技术院(KAIST)电气工程学院金正浩教授(HBF领域的主要倡导者)称,12年后,高带宽闪存(HBF)市场可能会比高带宽存储器(HBM)市场更大。他设想高带宽内存 ( HBM ) 作为 GPU 加速器的高速数据缓存层,并由一层 HBF 为其提供数据,而速度较慢但容量更高的联网 SSD 存储则为 HBF 层提供数据。

英伟达发布了推理上下文内存存储平台 (ICMSP ),该平台利用其 Dynamo 和 NIXL 软件为存储在 KV 缓存中的 AI 推理令牌提供托管内存空间,该缓存覆盖 HBM 和 BlueField-4 连接的 SSD。直观来看,同样的双层软件架构可以扩展到覆盖 HBM-HBF-BlueField-4 连接的 SSD 的三层结构。 联网的外部存储设备将连接到 BlueField-4 SSD 层,并拥有通往 GPU 的清晰路径,无需经过主机 X86 处理器及其 DRAM。金正浩教授还讨论了一款容量为512GB、带宽为1.638TB/s的HBF单元。该容量相当于2TB(250GB)的3D NAND芯片,例如SK海力士采用其321层三串3D NAND技术制造的芯片。我们只需堆叠两个这样的芯片即可制造出一个512GB容量的HBF芯片。这样的双层芯片总共包含 642 层 3D NAND,分为六个组件串,并且需要进行制造,使得上层不会使下层变形。

未来,GPU等算力卡将可能形成更明确的训练和推理分工,进一步降低 AI 推理门槛。同时,HBF的出现,也促使存储厂商加速技术创新,研发周期从十几年缩短到 3-5 年。

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。