在1月5日的2026年国际消费电子展(CES)上,英伟达首席执行官黄仁勋发布了名为“推理上下文内存平台”(ICMS)的全新硬件,旨在解决人工智能推理阶段爆炸式增长的数据存储需求。此举标志着AI硬件架构的重心正从单纯的算力堆叠向高效的上下文存储转移,NAND闪存和SSD有望接棒HBM,成为下一个关键的增长引擎。

《韩国经济日报》在1月24日的文章中介绍,黄仁勋在演讲中展示了一个被称为“推理上下文内存平台”(Inference Context Memory Platform,简称ICMS)的神秘黑色机架。这并非普通的硬件更新,而是一个旨在解决人工智能推理阶段数据瓶颈的关键创新。记者敏锐地捕捉到,这可能是继HBM(高带宽内存)之后,存储行业的下一个爆发点。

这一平台的核心逻辑在于解决AI推理中的“KV缓存”(键值缓存)问题。随着AI从单纯的学习阶段转向大规模推理应用,数据量呈爆炸式增长,现有的GPU显存和服务器内存架构已难以满足需求。英伟达通过引入全新的数据处理单元(DPU)和海量SSD(固态硬盘),构建了一个庞大的缓存池,试图打破这一物理限制。

这一技术变革对于韩国存储巨头三星电子和SK海力士来说,无疑是一个巨大的利好消息。报道认为,随着ICMS的推广,NAND闪存将迎来类似HBM的“黄金时代”。这不仅意味着存储容量需求的激增,更预示着存储架构的根本性变革——GPU将可能绕过CPU,直接与存储设备进行高速通信。

KV缓存爆炸式增长引发存储焦虑

韩媒文章指出,黄仁勋引入ICMS技术的核心动因在于“KV缓存”的激增在AI推理时代,KV缓存是AI理解对话上下文、进行逻辑推理的关键。例如,当用户向AI询问关于G-Dragon的复杂主观问题时,AI需要调用模型内部数据和历史对话上下文(即KV缓存)进行权重分配和推理,以避免重复计算和幻觉。

随着AI从单纯的学习转向推理,以及应用场景向多模态扩展,所需处理的数据量呈现不规则且爆炸式的增长。英伟达发现,仅靠昂贵的HBM或常规DRAM已无法容纳海量的KV缓存,而现有的服务器内部存储架构在应对未来推理时代时显得捉襟见肘。因此,一种能承载海量数据且保持高效访问的专用存储平台成为刚需。

DPU驱动的9600TB巨量空间

据韩媒文章,ICMS平台的核心在于将DPU与超大容量SSD相结合。文章转述英伟达介绍,该平台采用了新的“BlueField-4”DPU,充当数据传输的“行政后勤官”,以减轻CPU负担。一个标准的ICMS机架包含16个SSD托架,每个托架配备4个DPU并管理600TB的SSD,使得单个机架的总容量达到惊人的9600TB。

这一容量远超传统GPU机架。相比之下,一套包含8个机架的VeraRubin GPU平台,其SSD总容量约为4423.68TB。黄仁勋表示,通过ICMS平台,虚拟层面上将GPU的可用内存容量从以前的1TB提升到了16TB。同时,借助BlueField-4的性能提升,该平台实现了每秒200GB的KV缓存传输速度,有效解决了大容量SSD在网络传输中的瓶颈问题。

开启NAND闪存黄金时代

文章指出,ICMS平台主要利用的是SSD,这直接利好NAND闪存制造商。过去几年,虽然AI火热,但镁光灯主要集中在HBM上,NAND闪存和SSD并没有受到同等程度的关注。

英伟达将该平台定位为介于服务器内部本地SSD和外部存储之间的“第3.5层”存储。与昂贵且耗电的DRAM相比,由高性能DPU管理的SSD具备大容量、速度快且断电不丢失数据的优势,成为存储KV缓存的理想选择。

这一架构变革直接利好三星电子和SK海力士。由于ICMS对存储密度的极高要求,市场对企业级SSD和NAND闪存的需求将大幅攀升。此外,英伟达正在推进“Storage Next”(SCADA)计划,旨在让GPU绕过CPU直接访问NAND闪存,进一步消除数据传输瓶颈。

SK海力士已迅速响应这一趋势。据报道,SK海力士副总裁金天成透露,公司正与英伟达合作开发名为“AI-N P”的原型产品,计划利用PCIe Gen 6接口,在今年年底推出支持2500万IOPS(每秒读写次数)的存储产品,并预计到2027年底将性能提升至1亿IOPS。随着各大厂商加速布局,NAND闪存和SSD有望在AI推理时代迎来量价齐升的新周期。

以下是韩媒文章全文,由AI翻译:

英伟达首席执行官黄仁勋在2026年国际消费电子展(CES)上发布了一个神秘的内存平台:“推理上下文内存平台”。今天,《科技与城市》栏目将深入探讨它究竟是什么。
关键词:KV缓存在5日(当地时间)于拉斯维加斯举行的NVIDIA Live大会上,NVIDIA首席执行官黄仁勋在演讲结尾谈到了内存平台。我不禁竖起了耳朵。这会是下一个HBM吗?
打开网易新闻 查看精彩图片
今日之星:黑色机架式 NVIDIA ICMS(推理上下文内存存储)。图片来源:NVIDIA
首席执行官黄仁勋指着的是VeraRubin人工智能计算平台一角的一个黑色机架。这个机架,也就是我们今天故事的主角,里面存放着海量的存储空间。
首先,让我解释一下黄仁勋引入这项技术的原因。我们应该从“KV缓存”说起,黄仁勋CEO在官方场合经常提到它。读者朋友们,你们可能在最近关于GPU和AI硬件的文章中已经多次听到过KV缓存这个名字。
这个关键词在AI推理时代至关重要。它关乎AI理解对话上下文和高效计算的能力。我们举个简单的例子。假设你打开OpenAI的ChatGPT或Google Gemini,问一个关于韩国流行歌手G-Dragon的问题。
如果用户问的是G-Dragon的音乐、时尚或事业等客观信息,AI可以根据它学习到的信息回答。但是,聊了一会儿之后,用户突然问:“那他为什么会成为他那个时代的‘偶像’呢?”这就好比问了一个没有明确答案的论述题。这时,AI就开始推理了。
这就是KV缓存的关键所在:键和值。首先是键。我们很容易理解,但人工智能使用键向量来清晰地识别对话上下文中问题中的“那个人”是谁,以及答案的主题和目标(键)。然后,它会利用模型内部关于G-Dragon以及在与用户对话过程中收集到的各种数据(值)的中间计算结果,进行权重分配、推理,最终得出答案。
如果没有KV缓存,如果每个问题都像第一次一样重新计算,GPU将重复两到三次工作,从而降低效率。这可能导致人工智能出现幻觉和错误答案。然而,KV缓存可以提高效率。基于“注意力计算”的推理,会重用从与用户的长时间对话中获得的各种数据并应用权重,速度更快,对话也更加自然。
打开网易新闻 查看精彩图片
图片由 NVIDIA 提供
随着人工智能行业从学习向推理转型,这种键值缓存不再仅仅是辅助存储器。此外,所需的容量也在不断增加。
首先,随着越来越多的人将生成式人工智能融入日常生活,数据量的不规则激增不可避免。随着图像和视频服务的加入,对人工智能高级推理和想象力的需求将进一步增长,数据量还将呈爆炸式增长。
随着人工智能发现新信息的能力不断提升,它会在与用户的互动过程中,在各种场景下创建大量有用的键值缓存(KV缓存)。
面对键值缓存的爆炸式增长,NVIDIA 也对 GPU 流量进行了管理。他们将 GPU 分为两类:一类是大量生成键值缓存的 GPU,另一类是使用键值缓存的 GPU。然而,存储空间不足以存储所有这些缓存。
当然,服务器内部的内存容量很大。GPU旁边是HBM内存→如果不够用,就用DRAM模块→如果实在不行,甚至会在服务器内部使用SSD固态硬盘。然而,CEO黄仁勋似乎已经意识到,这种架构在未来的推理时代将难以驾驭。因此,他在CES上发布了这款黑盒子。
打开网易新闻 查看精彩图片
NVIDIA CEO 黄仁勋在 CES 2026 上推出 ICMS。图片由 NVIDIA YouTube 提供。
DPU + 超大容量 SSD = KV 缓存存储专用团队
这台黑色服务器是“推理上下文内存平台”,简称ICMS。让我们仔细看看它的规格。
首先,驱动ICMS的设备是DPU,即数据处理单元。读者可能对GPU和CPU比较熟悉,但服务器的隐藏动力源——DPU也值得一看。
打开网易新闻 查看精彩图片
NVIDIA首席执行官黄仁勋发布了BlueField-4 DPU。图片由NVIDIA提供。
DPU(数据处理单元)就像军队中的行政后勤官。如果说CPU是连长,那么GPU就是计算突击队员。DPU负责弹药和食物的运送,甚至处理通信和移动,使CPU能够做出适当的决策,而GPU则专注于攻击。NVIDIA的新型DPU“Bluefield-4”被赋予了一项新任务:ICMS(集成内容管理系统)。现在,让我们仔细看看ICMS平台。这个机架总共包含16个SSD托架。
打开网易新闻 查看精彩图片
图片来源:NVIDIA
每个托架配备四个 DPU,每个 DPU 管理 150TB 的 SSD。这意味着一个托架总共有 600TB 的缓存 SSD。
这是一个相当大的存储容量。我们来比较一下。假设在 Blackwell GPU 服务器中,为了最大化 KV 缓存,我们在 SSD 放置区域安装了八个 3.84TB 的通用缓存 SSD。这样每台服务器就有 30.72TB 的 SSD,这意味着一个包含 18 台服务器的 GPU 机架的总 SSD 容量为 552.96TB。
也就是说,单个 ICMS 托架的缓存 SSD 容量可以超过一个 GPU“机架”所能容纳的容量。一个机架中的 SSD 总数为 600TB x 16,即 9600TB。这比一套完整的 VeraRubin 8 个 GPU 机架(4423.68TB,552.96 x 8)的 SSD 容量高出一倍多。
打开网易新闻 查看精彩图片
图片由 NVIDIA 提供
黄仁勋在CES演讲中表示:“以前GPU的内存容量为1TB,但通过这个平台,我们获得了16TB的存储容量。”
仔细想想,他的话似乎相当准确。一个完整的VeraRubin平台由八个GPU机架组成。每个机架有72个GPU,共计576张存储卡。将ICMS的总容量9600TB除以576张存储卡,得出约16.7TB。
虽然人们仍然担心服务器的物理距离和SSD的传输速度,但BlueField 4性能的提升缓解了这些问题。黄仁勋解释说:“我们实现了与之前相同的每秒200GB的KV缓存传输速度。”
此外,现有的GPU服务器存在网络瓶颈,限制了7.68TB和15.36TB等大容量SSD的充分利用。这项基于DPU的网络改进似乎正是为了解决这些问题。
被视为“零”的NAND闪存的黄金时代即将到来吗?
打开网易新闻 查看精彩图片
图片由 NVIDIA 提供
NVIDIA 将此平台划分为 3.5 个内存组。第一组是 HBM,第二组是 DRAM 模块,第三组是服务器内部的本地 SSD,第四组是服务器外部的存储。ICMS深入研究了介于第三组和第四组之间的神秘领域。与昂贵或耗电的 DRAM 不同,SSD 比硬盘速度更快、容量更大,即使断电也不会丢失数据(这得益于高性能 DPU),使其成为理想之选。
该平台显然为三星电子和 SK 海力士提供了巨大的商机。仅一个机架就能增加 9,600 TB 的容量,这意味着他们可以销售比现有 NVIDIA 机架多数倍的 NAND 闪存,而且这仅仅是按位计算。此外,这款产品的开发商是 NVIDIA,一家全球所有人工智能公司都梦寐以求的公司,因此商机更加巨大。
打开网易新闻 查看精彩图片
三星电子的服务器固态硬盘。即使人工智能时代已经到来,NAND闪存和固态硬盘的价格一直滞后,预计今年第一季度将出现大幅上涨。图片由三星电子提供。
过去三年,尽管人工智能市场发展迅猛,但NAND闪存和固态硬盘(SSD)并未受到太多关注。这主要是因为与在NAND闪存发展中发挥关键作用的HBM相比,它们的利用率较低。NVIDIA正从ICMS项目入手,筹备一个旨在进一步提升SSD利用率的项目。该项目是“Storage Next”(也称为SCADA,即Scaled Accelerated Data Access,规模化加速数据访问)计划的一部分。目前,执行AI计算的GPU将直接访问NAND闪存(SSD)来获取各种数据,而无需经过CPU等控制单元。这是一个旨在消除GPU和SSD之间瓶颈的大胆设想。SK海力士也已正式宣布正在开发AI-N P,以顺应这一趋势。 SK海力士副总裁金天成表示:“SK海力士正与NVIDIA积极开展名为‘AI-N P’的初步实验(PoC)。”
他解释说:“基于PCIe Gen 6、支持2500万IOPS(每秒输入/输出操作数)的存储原型产品有望在今年年底发布。”他还表示:“到2027年底,我们将能够生产出支持高达1亿IOPS的产品。”2500万IOPS是目前固态硬盘速度的10倍以上。