不知道你有没有想过一个问题:

为什么存储一直涨,为什么AI突然需要那么多存储?

我仔细想了想,

根本原因还是智能体AI的兴起,

一年前你用GPT,问问题,它给你回答,对话结束,

然后等下次开始,大多数时候是会重新开启一个对话的,

那么背后的KV缓存可以直接丢弃的。

现在不一样了。

Agent跑起来是循环的,它要自己观察结果、反思、再调整,

没有人在用agent的时候,每次开启任务都想把前因后果再讲一遍,

对于GPU来说也是浪费,

对于Agent来说,上下文越多,表现越好,

所以才要“记住”。

上下文从"用完即弃的临时工"变成了"必须持久保留的战略资产"。

这就是存储从"可选"变成"刚需"的根源。

那为什么是HBM?

因为它直接绑定GPU,最紧缺、最贵、最绕不开,

是整个AI服务器的“咽喉”,

没有HBM,H100/B200/Rubin再强也跑不起来,

它的故事是最性感的。

然后就直接导致了,

三星、SK海力士、美光把自身七八成的产能都调去做HBM了,

普通DRAM和NAND被大幅压缩,全品类缺货涨价,

可以说,

HBM就像一只蝴蝶扇动翅膀,扇出了整个存储行业的涨价风暴,

才有了这一波HBM带来的存储热。

澜起的分歧

其实不是“市场不炒澜起是因为被HBM盖住了”,

而是,澜起它根本不参与HBM。

它做的是CPU侧的内存接口芯片和PCIe信号连接芯片。

这两个东西跟HBM是两条线。

所以当市场说"存储超级周期来了",

第一个被提到的永远是HBM产业链上的公司

三星、SK海力士、美光、以及给它们供材料的、做封测的。

说白了,就是“没站在HBM里”。

分歧的关键不是“被盖住”,

而是“你到底属于哪个叙事”。

澜起还是那个澜起。

陈立武说AI推理时代CPU和GPU的比例从1:8变成1:1。

因为Agent要编排、调度、管理上下文,这些都是CPU的活。

CPU多了,CPU侧的内存带宽需求就暴增。

每一台AI服务器都需要更多内存接口芯片、更高带宽的MRDIMM模组。

英伟达在今年的GTC 2026上推出了一个新的存储层——CMX。

什么是CMX?

AI推理产生了海量KV缓存,

HBM放不下,本地SSD别的GPU够不着,网络存储又太慢……

英伟达干脆造了一个新架构叫CMX。

一个Pod内所有GPU都能高速访问的共享存储池。

问题是数据在GPU和SSD之间高速传输,PCIe通道越来越多、速率越来越快,信号衰减成了大问题。

这时候就需要PCIe Retimer来放大信号。

然后CMX虽然底层用的是定制闪存,但闪存的速度再快,也无法直接和GPU的计算速度匹敌。

因此,在CMX架构中,必须有一层“温缓存”来做桥梁,这就是CXL MXC的舞台。

这些才是澜起的叙事,只是相较于HBM,没有那么性感。

文章就到这里啦。

如果你有不同角度的思考,欢迎留言探讨,这是对我最好的反馈,也是我持续输出的最大动力。

PS:本文仅记录自己的学习和思考过程,不构成任何投资建议。