谷歌把AI内存砍到1/6，存储芯片巨头先跌为敬

爬虫饲养员

2026-03-26 12:07 ·北京

昨天谷歌研究院扔出一颗技术炸弹——TurboQuant压缩算法。这东西专门收拾大模型里的"内存吸血鬼"KV Cache，号称能把内存占用压到原来的六分之一，还不掉精度。

先解释下KV Cache是什么。大模型生成文本时，需要记住之前算过的东西避免重复劳动，这个记忆库就是KV Cache。问题是它太能吃内存，长文本场景下直接让硬件喘不过气。

传统压缩方案像个笨拙的会计：为了压缩一小块数据，得先算一堆常数存起来。省下的内存又被这些 bookkeeping 开销吃掉大半，折腾半天效果寥寥。

TurboQuant的解法有点意思。第一步用PolarQuant把数据从笛卡尔坐标系扔到极坐标里，映射到固定圆形网格上。好处是边界已知，省掉昂贵的归一化步骤，额外开销归零。第二步用QJL算法处理残余误差，只用1比特的算力就能把偏差修干净。

测试数据很硬：Gemma和Mistral模型上，无需预训练直接压到3比特，"大海捞针"长文本测试零精度损失。H100上4比特版本比32比特原版快8倍。

资本市场反应更快。存储芯片板块应声下跌，美光跌4%，西数跌4.4%，希捷跌5.6%，闪迪重挫6.5%。毕竟如果AI不需要那么多内存了，谁还囤你的货？

有研究员在GitHub issue里吐槽，说自己的实验环境还没搭完，谷歌已经连论文和代码一起甩出来了——这很谷歌。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴