打开网易新闻 查看精彩图片

昨天谷歌研究院扔出一颗技术炸弹——TurboQuant压缩算法。这东西专门收拾大模型里的"内存吸血鬼"KV Cache,号称能把内存占用压到原来的六分之一,还不掉精度。

先解释下KV Cache是什么。大模型生成文本时,需要记住之前算过的东西避免重复劳动,这个记忆库就是KV Cache。问题是它太能吃内存,长文本场景下直接让硬件喘不过气。

打开网易新闻 查看精彩图片

传统压缩方案像个笨拙的会计:为了压缩一小块数据,得先算一堆常数存起来。省下的内存又被这些 bookkeeping 开销吃掉大半,折腾半天效果寥寥。

TurboQuant的解法有点意思。第一步用PolarQuant把数据从笛卡尔坐标系扔到极坐标里,映射到固定圆形网格上。好处是边界已知,省掉昂贵的归一化步骤,额外开销归零。第二步用QJL算法处理残余误差,只用1比特的算力就能把偏差修干净。

打开网易新闻 查看精彩图片

测试数据很硬:Gemma和Mistral模型上,无需预训练直接压到3比特,"大海捞针"长文本测试零精度损失。H100上4比特版本比32比特原版快8倍。

资本市场反应更快。存储芯片板块应声下跌,美光跌4%,西数跌4.4%,希捷跌5.6%,闪迪重挫6.5%。毕竟如果AI不需要那么多内存了,谁还囤你的货?

有研究员在GitHub issue里吐槽,说自己的实验环境还没搭完,谷歌已经连论文和代码一起甩出来了——这很谷歌。