打开网易新闻 查看精彩图片

2026 年 3 月 25 日,美股存储板块明显承压。Micron、Western Digital、SanDisk、Seagate 等多只与内存、存储相关的股票集体回落。引发这波情绪变化的是 Google Research 前一天高调介绍的一篇即将在 ICLR 2026 亮相的论文 —— TurboQuant。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

财经媒体将这波下跌,直接与谷歌新发布的 TurboQuant 联系在一起。

这篇论文名为《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》。

打开网易新闻 查看精彩图片

这篇论文的核心指向很明确,针对大模型推理过程中最占内存的 KV cache,尝试在尽量不影响模型效果的前提下,把内存占用显著压缩下来。

论文摘要显示,TurboQuant 面向 KV cache 量化场景,重点解决的不只是压缩率问题,还包括量化后对注意力计算精度的影响。

从结果看,TurboQuant 给出的信号足够强。

按照论文摘要,在 KV cache 量化任务中,TurboQuant 在 3.5 bits per channel 时基本可以做到质量不变,在 2.5 bits per channel 时也只有轻微质量下降。

Google Research 在配套博文中则给出了更直观的展示,在部分长上下文测试中,KV cache 的内存占用至少可压缩 6 倍;在 H100 GPU 上,4-bit TurboQuant 在 attention logits 计算这一环节,相比 32-bit 的高度优化 JAX 基线,最高可实现 8 倍性能提升。

打开网易新闻 查看精彩图片

如果 GPU 是仓库,KV cache 是最占地方的货物,那 TurboQuant 就像把这些货物从“散装堆放”变成“高密度打包”,仓库没变大,但能塞进去的东西一下多了很多。

这也是为什么一篇论文会迅速传导到存储股

过去一年,AI 基础设施最核心的逻辑之一,就是“上下文越长,推理越吃内存,内存和存储厂商越受益”。

而 TurboQuant 所释放出的信号是,长上下文推理带来的内存压力,未必只能靠继续堆更多 DRAM、HBM 和存储资源来解决,算法层面的优化也可能显著改变成本结构。

当然,这件事现阶段更像一次预期冲击,而不是产业基本面已经被彻底改写。

首先,TurboQuant 目前仍是研究成果,Google 并未披露其已经在大规模商业系统中全面落地;其次,它主要缓解的是推理阶段、尤其是长上下文场景下的 KV cache 压力,并不等于训练侧的高性能内存需求会同步消失;再者,论文中的实验结果能否稳定转化为产业现实,还要看框架适配、工程实现、芯片协同和客户采用节奏。

这次市场波动真正交易的,不是“谷歌发了一篇论文”本身,而是另一个更关键的问题,未来 AI 推理对内存的依赖,是否真的像市场此前想象的那样刚性。

ICLR 只是这篇论文正式亮相的舞台,真正被重新审视的,是 AI 基础设施的成本逻辑。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片