RESEARCH

3 月 24 日,Google Research 发布了一套量化压缩算法,叫 TurboQuant。核心能力一句话讲完:把 LLM 推理时最吃内存的 KV cache 压到极低的 bit 宽度,3.5 bit 精度零损失,2.5 bit 仅有极微小的质量下降,内存缩小至少 6 倍,attention 计算在 H100 上最高快 8 倍

整个过程免训练、免微调、免校准,纯软件方案,拿来就能用

32 bit per channel 几十 GB 内存 → TurboQuant → 3.5 bit per channel 零精度损失 内存 ÷6 速度 ×8 3.5 bit 零损失

有多直接呢,发布不到 24 小时,已经有人在一台几千块的 Mac Mini 上用它跑通了 Qwen3.5-35B-A3B 的 64K token 长对话,回答质量跟不压缩的时候完全一样

论文下个月在 ICLR 2026 主会上发表。作者来自 Google Research、Google DeepMind 和纽约大学

6 倍压缩,什么概念

先把这个数字翻译成大家能摸到的东西

一个 8B 参数的模型跑长对话推理的时候,KV cache 可以吃掉几十 GB 内存。一张 80GB 的 H100 显卡,光 KV cache 就能占掉一大半。压缩 6 倍 之后,这部分从几十 GB 降到几个 GB

直接的效果:同一张显卡能跑更长的对话,或者同时服务更多用户

再换一个更直觉的场景。一台 Mac Mini M4 Pro,24GB 统一内存。之前跑 Qwen3.5-35B 做长对话,KV cache 膨胀到一定程度就撑不住了。TurboQuant 把 KV cache 压下来之后,这个上限往后推了很多

Mac Mini 上跑 Qwen3.5-35B 的 6 万字长对话,needle-in-a-haystack 测试全部命中

发布不到 24 小时,Twitter @Prince_Canuma 已经把 TurboQuant 移植到了 Apple Silicon 的 MLX 框架上,用 Qwen3.5-35B 做了验证。从 8.5K 到 64K token 上下文,2.5 bit 量化,KV cache 缩小近 5 倍,needle-in-a-haystack 测试 6/6 精确命中

第三方模型,第三方硬件,跟 Google 自己的 benchmark 结果吻合

打开网易新闻 查看精彩图片

https://x.com/Prince_Canuma/status/2036611007523512397

KV cache 为什么是瓶颈

你跟 AI 聊天的时候,对话越长,AI 需要记住的「前文」就越多,内存占用就越大。这部分专门用来存「前文」的内存,叫 KV cache

技术上:LLM 生成文本的时候,每读到一个 token,都会算出一组 key 和 value 向量存起来。后面生成新 token 时,模型要回头查这些 key-value 对,来决定该关注之前哪些内容

对话越长,存的越多,内存线性增长。上下文到了 32K、64K、128K token 的时候,KV cache 的内存开销经常比模型权重还大

压缩 KV cache 是自然的方向。把 32 bit 浮点数量化成更少的 bit,内存就省下来了。但传统的量化方法有一个很烦的问题

传统方法在压缩的同时,需要额外存储一堆归一化常数。这些常数要用高精度来存(比如 16 bit),每个数据块都配一组。算下来,额外开销大概 1-2 bit

压缩省了 3 bit,归一化常数吃回去 1-2 bit,净收益就打折了

TurboQuant 要解决的就是这个问题

TurboQuant 怎么做的

两步压缩。第一步把数据压小,第二步把压缩带来的误差修掉。最终效果:32 bit 的数据变成 3 bit 多一点,模型该记住的东西一个都没丢

TurboQuant 两步压缩 32 bit 原始向量 Step 1 · PolarQuant 随机旋转 → 极坐标变换 归一化开销 → 0 消耗 b-1 bit · 捕获主体信息 微小残差 ↓ Step 2 · QJL JL 变换 → 符号位 (+1/-1) 消耗 1 bit · 消除内积偏差 b bit · 零偏差 · 零额外开销

第一步:PolarQuant

传统压缩方法在压数据的同时,要额外存一堆「辅助参数」保证精度。这些参数本身也占内存,相当于压缩打了折。PolarQuant 通过一个数学技巧,让这些辅助参数变得不再需要

具体做法:先对输入向量施加一个随机旋转矩阵。旋转之后,每个维度上的数值分布变得非常集中、非常规律,跟原始数据长什么样无关。分布规律了,就可以用一套事先算好的固定量化表来处理所有数据

数学上:把向量从笛卡尔坐标系转成极坐标系。笛卡尔坐标是「沿 X 轴走多少、Y 轴走多少」,极坐标是「总距离多少、角度多少」。角度的分布在高维空间中是已知的、高度集中的 Beta 分布

归一化开销,消掉了

随机旋转还带来一个额外好处:高维空间中,旋转后的各个坐标之间近似独立同分布(i.i.d.)。独立了,就可以把多维的量化问题拆成一堆一维的标量量化问题(Max-Lloyd 问题),每个维度单独求最优解。算一次,存好 codebook,之后在线推理直接查表

PolarQuant 单独作为一篇论文,将在 AISTATS 2026 上发表

第二步:QJL

第一步压完之后,数据体积大幅缩小了,但会带一点微小的误差。这个误差如果不管,模型在判断「这段对话里哪些内容更重要」的时候会出现系统性偏差。聊几千字可能看不出来,聊几万字就会累积

给一个数学直觉:一个 1-bit 的 MSE 最优量化器在高维空间中,会引入一个 2/π 的乘性偏差。这个偏差听起来不大,但在 attention 计算中会被放大

QJL 的做法是:对第一步的残差向量施加 Johnson-Lindenstrauss 变换,把每个数值压成 1 bit 的符号位(+1 或 -1)。然后用一个特殊的估计器,在数学上保证内积估计无偏

E[⟨y, Q⁻¹(Q(x))⟩] = ⟨y, x⟩

压缩后的内积期望值,严格等于真实内积。偏差消除了,额外开销只有 1 bit

QJL 这篇论文已经在 AAAI 2025 上发表

合起来

两步加在一起:b-1 bit 给 PolarQuant 做主体压缩,1 bit 给 QJL 做残差纠错。总位宽 b bit

论文证明,TurboQuant 的 MSE 失真率距离信息论的理论下界只差大约 2.7 倍 的常数因子。在低 bit 宽度下这个差距更小

3.5 bit,零损失,免重训

传统方法用 3 bit 压缩,1-2 bit 被归一化开销吃掉,实际有效压缩可能只有 1-2 bit。TurboQuant 的每一个 bit 都是有效压缩

Benchmark 数据

说了这么多原理,回到大家最关心的问题:压完之后模型到底还好不好用

Google 在五个长上下文 benchmark 上做了测试:LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval。测试模型用的是开源的 Gemma、Mistral 和 Llama-3.1-8B-Instruct

KV cache 压缩

论文里的精确表述:3.5 bit 达到「absolute quality neutrality」(绝对质量中性),2.5 bit 只有「marginal quality degradation」

→内存缩小至少 6 倍

→LongBench 的 QA、代码生成、摘要任务上,匹配或超过 KIVI baseline

→Needle-in-a-Haystack(在海量文本里精确找到一条特定信息):满分

→PolarQuant 单独用,这个任务也近乎无损

打开网易新闻 查看精彩图片

论文中 LongBench 各任务得分对比

速度

压缩不只省内存,还能加速。要读取和计算的数据量变少了,速度自然就快了

在 NVIDIA H100 上,4 bit 模式的 attention logits 计算,比 32 bit 未量化版本最高快 8 倍。测量基线是高度优化过的 JAX 实现

打开网易新闻 查看精彩图片

论文中 H100 不同 bit 宽度速度对比

向量搜索

TurboQuant 不只能压 KV cache,在向量搜索场景也好用。向量搜索就是搜索引擎和 RAG 背后的技术:你输入一个问题,系统要在几十亿条数据里找到最相关的那几条

Google 在 GloVe 数据集(200 维)上跟 Product Quantization 和 RabitQ 做了对比。TurboQuant 的 recall 全面领先,对方用了大 codebook 和数据集特定调优,TurboQuant 什么都没调

索引构建时间几乎为零(1536 维向量只需 0.0013 秒)

打开网易新闻 查看精彩图片

论文中 GloVe 数据集 recall 对比

四个工程属性

对部署 LLM 的团队来说,下面四个属性可能比压缩率本身更重要。它们决定了这个东西能不能真的用起来

Training-free 量化表预先算好,拿到模型直接用
Data-oblivious 数据进来直接压,省掉了校准步骤
加速器友好 用 GPU 擅长的批量向量化运算
纯软件 H100、A100 直接跑,零硬件改造

四个属性合起来:拿到一个新模型,零准备,直接压,直接部署

外部反应

这个算法发出来之后,技术圈和资本市场同时给了很大的反应

Google Research 的官方推文获得了超过 770 万 次浏览

Twitter @eastdakota 的评价是「Google 的 DeepSeek 时刻」

Matthew Prince,Cloudflare CEO

社区 24 小时内开始移植到 MLX 和 llama.cpp。前面提到的 Qwen3.5-35B 实测就是这么来的

美股内存板块当天下跌:SanDisk -5.7%,Micron -3%,Western Digital -4.7%,同期纳斯达克 100 是涨的。市场在担心软件压缩效率的提升会减少对 HBM 芯片的需求。评论区也有人搬出 Jevons Paradox 来反驳:效率越高,总消耗可能反而增加,历史上这种事发生过很多次

论文和资源

TurboQuant 主论文(ICLR 2026)

arxiv.org/abs/2504.19874

PolarQuant(AISTATS 2026)

arxiv.org/abs/2502.02617

QJL(AAAI 2025)

arxiv.org/abs/2406.03482

Google Research 官方博客

research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/