IT之家2月12日消息,SK海力士在一篇发布于本月4日的论文中提出了H3混合存储架构,其混合配置HBM高带宽内存与HBF高带宽闪存,充分发挥两种介质各自的优势而避免其短板。

SK海力士在论文中表示,HBF与HBM相比,带宽相当、容量更大、访问延迟更长、写入耐久更差、功耗更高,因此H3将HBF作为HBM的“二级扩展”,HBF存储只读数据、HBM则负责其余数据。

打开网易新闻 查看精彩图片

▲简略手绘概念图,H3即HBM+HBF的整体

具体在结构方面,H3上GPU与HBM的BaseDie通过中介层互联,HBMBaseDie内置了HBM控制器和与HBF系统配套的“延迟隐藏缓冲”,HBMBaseDie再通过中介层与HBFBaseDie连接,后者则包含HBF堆栈的控制器

这一设计使得H3能存储大量只读数据,适合LLM推理工作负载环境,特别是那些采用共享预计算键值缓存的用例。仿真测试结果表明,相较于仅使用HBM的传统系统,配备H3的GPU单位功耗的吞吐量提高了2.69倍,显示出该架构在处理具有海量只读数据的LLM推理方面的成本效益。