一篇论文，存储股崩了：谷歌将 AI 内存故事改写了

云头条

2026-03-26 15:51 ·北京 ·北京云头条咨询有限公司官方账号

2026 年 3 月 25 日，美股存储板块明显承压。Micron、Western Digital、SanDisk、Seagate 等多只与内存、存储相关的股票集体回落。引发这波情绪变化的是 Google Research 前一天高调介绍的一篇即将在 ICLR 2026 亮相的论文 —— TurboQuant。

财经媒体将这波下跌，直接与谷歌新发布的 TurboQuant 联系在一起。

这篇论文名为《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》。

这篇论文的核心指向很明确，针对大模型推理过程中最占内存的 KV cache，尝试在尽量不影响模型效果的前提下，把内存占用显著压缩下来。

论文摘要显示，TurboQuant 面向 KV cache 量化场景，重点解决的不只是压缩率问题，还包括量化后对注意力计算精度的影响。

从结果看，TurboQuant 给出的信号足够强。

按照论文摘要，在 KV cache 量化任务中，TurboQuant 在 3.5 bits per channel 时基本可以做到质量不变，在 2.5 bits per channel 时也只有轻微质量下降。

Google Research 在配套博文中则给出了更直观的展示，在部分长上下文测试中，KV cache 的内存占用至少可压缩 6 倍；在 H100 GPU 上，4-bit TurboQuant 在 attention logits 计算这一环节，相比 32-bit 的高度优化 JAX 基线，最高可实现 8 倍性能提升。

如果 GPU 是仓库，KV cache 是最占地方的货物，那 TurboQuant 就像把这些货物从“散装堆放”变成“高密度打包”，仓库没变大，但能塞进去的东西一下多了很多。

这也是为什么一篇论文会迅速传导到存储股。

过去一年，AI 基础设施最核心的逻辑之一，就是“上下文越长，推理越吃内存，内存和存储厂商越受益”。

而 TurboQuant 所释放出的信号是，长上下文推理带来的内存压力，未必只能靠继续堆更多 DRAM、HBM 和存储资源来解决，算法层面的优化也可能显著改变成本结构。

当然，这件事现阶段更像一次预期冲击，而不是产业基本面已经被彻底改写。

首先，TurboQuant 目前仍是研究成果，Google 并未披露其已经在大规模商业系统中全面落地；其次，它主要缓解的是推理阶段、尤其是长上下文场景下的 KV cache 压力，并不等于训练侧的高性能内存需求会同步消失；再者，论文中的实验结果能否稳定转化为产业现实，还要看框架适配、工程实现、芯片协同和客户采用节奏。

这次市场波动真正交易的，不是“谷歌发了一篇论文”本身，而是另一个更关键的问题，未来 AI 推理对内存的依赖，是否真的像市场此前想象的那样刚性。

ICLR 只是这篇论文正式亮相的舞台，真正被重新审视的，是 AI 基础设施的成本逻辑。

云头条声明：如以上内容有误或侵犯到你公司、机构、单位或个人权益，请联系我们说明理由，我们会配合，无条件删除处理。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴