Google把内存压缩6倍，但DRAM厂商笑了

摸鱼算法

2026-04-02 14:28 ·北京

去年DRAM价格翻了三倍，Google突然扔出一个叫TurboQuant的技术，号称能把AI推理的内存消耗砍掉至少6倍。听起来像是救星？供应链的人听完摇了摇头。

这不是降价信号，而是一场关于"到底该优化什么"的技术路线之争。

6倍压缩从哪来

6倍压缩从哪来

TurboQuant的核心靶点不是模型本身，而是KV缓存——大语言模型在对话时用来记住上下文的"短期记忆库"。

Google研究团队在博客中解释，这些KV缓存通常以16位精度存储，体积膨胀极快，经常比模型本体还吃内存。TurboQuant把它压到2.5位精度，6倍内存削减就是这么算出来的。

技术实现靠两个数学工具：QJL（量化约翰逊-林登斯特劳斯变换）和PolarQuant。后者把高维向量从直角坐标系搬到极坐标系，用角度和距离替代X/Y轴定位。Google的类比很直白：「这就像把'向东3个街区、向北4个街区'改成'总共走5个街区，角度37度'。」

精度压到3.5位时，Google声称质量能逼近BF16；压到4位时，H100上计算注意力逻辑的速度能快8倍。数字很漂亮，但有个关键前提——这全是针对KV缓存的优化，模型权重纹丝不动。

为什么DRAM价格不会跌

为什么DRAM价格不会跌

这里有个反直觉的账。TurboQuant省的是推理阶段的内存，不是训练阶段，更不是芯片制造环节的硅片面积。而过去一年DRAM价格暴涨的推手，是HBM（高带宽内存）在AI训练芯片里的刚需挤兑。

英伟达H100/H200的HBM堆叠、AMD MI300系列的多芯片封装，都在疯狂吞噬先进制程的DRAM产能。三星、SK海力士、美光三家的HBM产线已经排到2025年。TurboQuant再神，也改变不了训练集群对HBM的物理依赖。

更微妙的是，KV缓存压缩其实已经是行业常规操作。FP8精度存储KV缓存，主流推理引擎早就在做了。Google的突破在于把精度压得更低、速度损失更小，但这属于"做得更好"，不是"从零到一"。

换句话说，TurboQuant是推理优化军备赛的一枚新弹药，不是内存定价体系的颠覆者。

谁真受益

谁真受益

对模型开发者和推理服务商来说，这确实是实打实的成本杠杆。内存占用降6倍，意味着同样硬件能支撑的并发请求数大幅上扬，或者可以用更便宜的硬件跑同等负载。

Google在博客中强调，TurboQuant的代码和模型即将开源。这对被英伟达生态锁死的中小企业是个窗口——如果能在消费级GPU或自研芯片上跑通低精度KV缓存，推理成本曲线会明显下弯。

但成本转移的方向值得玩味。省下的内存预算，大概率会被重新投入更长的上下文窗口、更大的批量推理，或者更激进的模型规模。技术优化释放的算力红利，历史上从没变成终端价格的下降，只会变成产品功能的膨胀。

DRAM厂商对此心知肚明。SK海力士在最新财报电话会里提到，即使推理效率持续优化，AI工作负载的内存密度需求仍在以每年2-3倍的速度增长。TurboQuant这类技术，不过是把增长曲线从"陡峭"调成了"较陡峭"。

一个待解的悖论

一个待解的悖论

Google的研究团队没有回避代价。2.5位精度已经接近信息论极限，再往下压，质量损失的边际成本会陡然上升。他们目前的测试集中在特定模型架构上，泛化性仍是未知数。

更现实的约束来自软件栈。TurboQuant要发挥效能，需要推理引擎、编译器、驱动层的深度配合。Google自家TPU和英伟达GPU的路径差异，意味着这项技术短期内很难跨平台即插即用。

一位在硅谷做推理优化的工程师在Hacker News评论：「我们去年就试过类似思路，但生产环境里精度回退的调试成本太高，最后退回FP8。Google能开源的话，至少省掉我们三个月的踩坑时间。」

这大概是TurboQuant最诚实的价值定位——不是救世主，而是把行业共识往前推了一步。至于DRAM价格？该涨还是涨，和你我用的AI产品会不会因此便宜，是两码事。

当Google把2.5位精度的KV缓存塞进开源仓库时，第一批下载的会是谁——急着降本的云厂商，还是想绕过英伟达生态的芯片新势力？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴