Google 新算法，Mac Mini 也能跑 Qwen3.5|上下文|向量|残差|知名企业|算法|谷歌

RESEARCH

3 月 24 日，Google Research 发布了一套量化压缩算法，叫 TurboQuant。核心能力一句话讲完：把 LLM 推理时最吃内存的 KV cache 压到极低的 bit 宽度，3.5 bit 精度零损失，2.5 bit 仅有极微小的质量下降，内存缩小至少 6 倍，attention 计算在 H100 上最高快 8 倍

整个过程免训练、免微调、免校准，纯软件方案，拿来就能用

32 bit per channel 几十 GB 内存 → TurboQuant → 3.5 bit per channel 零精度损失内存 ÷6 速度 ×8 3.5 bit 零损失

有多直接呢，发布不到 24 小时，已经有人在一台几千块的 Mac Mini 上用它跑通了 Qwen3.5-35B-A3B 的 64K token 长对话，回答质量跟不压缩的时候完全一样

论文下个月在 ICLR 2026 主会上发表。作者来自 Google Research、Google DeepMind 和纽约大学

6 倍压缩，什么概念

先把这个数字翻译成大家能摸到的东西

一个 8B 参数的模型跑长对话推理的时候，KV cache 可以吃掉几十 GB 内存。一张 80GB 的 H100 显卡，光 KV cache 就能占掉一大半。压缩 6 倍 之后，这部分从几十 GB 降到几个 GB

直接的效果：同一张显卡能跑更长的对话，或者同时服务更多用户

再换一个更直觉的场景。一台 Mac Mini M4 Pro，24GB 统一内存。之前跑 Qwen3.5-35B 做长对话，KV cache 膨胀到一定程度就撑不住了。TurboQuant 把 KV cache 压下来之后，这个上限往后推了很多

Mac Mini 上跑 Qwen3.5-35B 的 6 万字长对话，needle-in-a-haystack 测试全部命中

发布不到 24 小时，Twitter @Prince_Canuma 已经把 TurboQuant 移植到了 Apple Silicon 的 MLX 框架上，用 Qwen3.5-35B 做了验证。从 8.5K 到 64K token 上下文，2.5 bit 量化，KV cache 缩小近 5 倍，needle-in-a-haystack 测试 6/6 精确命中

第三方模型，第三方硬件，跟 Google 自己的 benchmark 结果吻合

https://x.com/Prince_Canuma/status/2036611007523512397

KV cache 为什么是瓶颈

你跟 AI 聊天的时候，对话越长，AI 需要记住的「前文」就越多，内存占用就越大。这部分专门用来存「前文」的内存，叫 KV cache

技术上：LLM 生成文本的时候，每读到一个 token，都会算出一组 key 和 value 向量存起来。后面生成新 token 时，模型要回头查这些 key-value 对，来决定该关注之前哪些内容

对话越长，存的越多，内存线性增长。上下文到了 32K、64K、128K token 的时候，KV cache 的内存开销经常比模型权重还大

压缩 KV cache 是自然的方向。把 32 bit 浮点数量化成更少的 bit，内存就省下来了。但传统的量化方法有一个很烦的问题

传统方法在压缩的同时，需要额外存储一堆归一化常数。这些常数要用高精度来存（比如 16 bit），每个数据块都配一组。算下来，额外开销大概 1-2 bit

压缩省了 3 bit，归一化常数吃回去 1-2 bit，净收益就打折了

TurboQuant 要解决的就是这个问题

TurboQuant 怎么做的

两步压缩。第一步把数据压小，第二步把压缩带来的误差修掉。最终效果：32 bit 的数据变成 3 bit 多一点，模型该记住的东西一个都没丢

TurboQuant 两步压缩 32 bit 原始向量 Step 1 · PolarQuant 随机旋转 → 极坐标变换归一化开销 → 0 消耗 b-1 bit · 捕获主体信息微小残差 ↓ Step 2 · QJL JL 变换 → 符号位 (+1/-1) 消耗 1 bit · 消除内积偏差 b bit · 零偏差 · 零额外开销

第一步：PolarQuant

传统压缩方法在压数据的同时，要额外存一堆「辅助参数」保证精度。这些参数本身也占内存，相当于压缩打了折。PolarQuant 通过一个数学技巧，让这些辅助参数变得不再需要

具体做法：先对输入向量施加一个随机旋转矩阵。旋转之后，每个维度上的数值分布变得非常集中、非常规律，跟原始数据长什么样无关。分布规律了，就可以用一套事先算好的固定量化表来处理所有数据

数学上：把向量从笛卡尔坐标系转成极坐标系。笛卡尔坐标是「沿 X 轴走多少、Y 轴走多少」，极坐标是「总距离多少、角度多少」。角度的分布在高维空间中是已知的、高度集中的 Beta 分布

归一化开销，消掉了

随机旋转还带来一个额外好处：高维空间中，旋转后的各个坐标之间近似独立同分布（i.i.d.）。独立了，就可以把多维的量化问题拆成一堆一维的标量量化问题（Max-Lloyd 问题），每个维度单独求最优解。算一次，存好 codebook，之后在线推理直接查表

PolarQuant 单独作为一篇论文，将在 AISTATS 2026 上发表

第二步：QJL

第一步压完之后，数据体积大幅缩小了，但会带一点微小的误差。这个误差如果不管，模型在判断「这段对话里哪些内容更重要」的时候会出现系统性偏差。聊几千字可能看不出来，聊几万字就会累积

给一个数学直觉：一个 1-bit 的 MSE 最优量化器在高维空间中，会引入一个 2/π 的乘性偏差。这个偏差听起来不大，但在 attention 计算中会被放大

QJL 的做法是：对第一步的残差向量施加 Johnson-Lindenstrauss 变换，把每个数值压成 1 bit 的符号位（+1 或 -1）。然后用一个特殊的估计器，在数学上保证内积估计无偏

E[⟨y, Q⁻¹(Q(x))⟩] = ⟨y, x⟩

压缩后的内积期望值，严格等于真实内积。偏差消除了，额外开销只有 1 bit

QJL 这篇论文已经在 AAAI 2025 上发表

合起来

两步加在一起：b-1 bit 给 PolarQuant 做主体压缩，1 bit 给 QJL 做残差纠错。总位宽 b bit

论文证明，TurboQuant 的 MSE 失真率距离信息论的理论下界只差大约 2.7 倍 的常数因子。在低 bit 宽度下这个差距更小

3.5 bit，零损失，免重训

传统方法用 3 bit 压缩，1-2 bit 被归一化开销吃掉，实际有效压缩可能只有 1-2 bit。TurboQuant 的每一个 bit 都是有效压缩

Benchmark 数据

说了这么多原理，回到大家最关心的问题：压完之后模型到底还好不好用

Google 在五个长上下文 benchmark 上做了测试：LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L-Eval。测试模型用的是开源的 Gemma、Mistral 和 Llama-3.1-8B-Instruct

KV cache 压缩

论文里的精确表述：3.5 bit 达到「absolute quality neutrality」（绝对质量中性），2.5 bit 只有「marginal quality degradation」

→内存缩小至少 6 倍

→LongBench 的 QA、代码生成、摘要任务上，匹配或超过 KIVI baseline

→Needle-in-a-Haystack（在海量文本里精确找到一条特定信息）：满分

→PolarQuant 单独用，这个任务也近乎无损

论文中 LongBench 各任务得分对比

速度

压缩不只省内存，还能加速。要读取和计算的数据量变少了，速度自然就快了

在 NVIDIA H100 上，4 bit 模式的 attention logits 计算，比 32 bit 未量化版本最高快 8 倍。测量基线是高度优化过的 JAX 实现

论文中 H100 不同 bit 宽度速度对比

向量搜索

TurboQuant 不只能压 KV cache，在向量搜索场景也好用。向量搜索就是搜索引擎和 RAG 背后的技术：你输入一个问题，系统要在几十亿条数据里找到最相关的那几条

Google 在 GloVe 数据集（200 维）上跟 Product Quantization 和 RabitQ 做了对比。TurboQuant 的 recall 全面领先，对方用了大 codebook 和数据集特定调优，TurboQuant 什么都没调

索引构建时间几乎为零（1536 维向量只需 0.0013 秒）

论文中 GloVe 数据集 recall 对比

四个工程属性

对部署 LLM 的团队来说，下面四个属性可能比压缩率本身更重要。它们决定了这个东西能不能真的用起来

Training-free 量化表预先算好，拿到模型直接用
Data-oblivious 数据进来直接压，省掉了校准步骤
加速器友好 用 GPU 擅长的批量向量化运算
纯软件 H100、A100 直接跑，零硬件改造

四个属性合起来：拿到一个新模型，零准备，直接压，直接部署

外部反应

这个算法发出来之后，技术圈和资本市场同时给了很大的反应

Google Research 的官方推文获得了超过 770 万 次浏览

Twitter @eastdakota 的评价是「Google 的 DeepSeek 时刻」

Matthew Prince，Cloudflare CEO

社区 24 小时内开始移植到 MLX 和 llama.cpp。前面提到的 Qwen3.5-35B 实测就是这么来的

美股内存板块当天下跌：SanDisk -5.7%，Micron -3%，Western Digital -4.7%，同期纳斯达克 100 是涨的。市场在担心软件压缩效率的提升会减少对 HBM 芯片的需求。评论区也有人搬出 Jevons Paradox 来反驳：效率越高，总消耗可能反而增加，历史上这种事发生过很多次

论文和资源

TurboQuant 主论文（ICLR 2026）

arxiv.org/abs/2504.19874

PolarQuant（AISTATS 2026）

arxiv.org/abs/2502.02617

QJL（AAAI 2025）

arxiv.org/abs/2406.03482

Google Research 官方博客

research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/