去年DRAM价格翻了三倍,Google突然扔出一个叫TurboQuant的技术,号称能把AI推理的内存消耗砍掉至少6倍。听起来像是救星?供应链的人听完摇了摇头。
这不是降价信号,而是一场关于"到底该优化什么"的技术路线之争。
6倍压缩从哪来
TurboQuant的核心靶点不是模型本身,而是KV缓存——大语言模型在对话时用来记住上下文的"短期记忆库"。
Google研究团队在博客中解释,这些KV缓存通常以16位精度存储,体积膨胀极快,经常比模型本体还吃内存。TurboQuant把它压到2.5位精度,6倍内存削减就是这么算出来的。
技术实现靠两个数学工具:QJL(量化约翰逊-林登斯特劳斯变换)和PolarQuant。后者把高维向量从直角坐标系搬到极坐标系,用角度和距离替代X/Y轴定位。Google的类比很直白:「这就像把'向东3个街区、向北4个街区'改成'总共走5个街区,角度37度'。」
精度压到3.5位时,Google声称质量能逼近BF16;压到4位时,H100上计算注意力逻辑的速度能快8倍。数字很漂亮,但有个关键前提——这全是针对KV缓存的优化,模型权重纹丝不动。
为什么DRAM价格不会跌
这里有个反直觉的账。TurboQuant省的是推理阶段的内存,不是训练阶段,更不是芯片制造环节的硅片面积。而过去一年DRAM价格暴涨的推手,是HBM(高带宽内存)在AI训练芯片里的刚需挤兑。
英伟达H100/H200的HBM堆叠、AMD MI300系列的多芯片封装,都在疯狂吞噬先进制程的DRAM产能。三星、SK海力士、美光三家的HBM产线已经排到2025年。TurboQuant再神,也改变不了训练集群对HBM的物理依赖。
更微妙的是,KV缓存压缩其实已经是行业常规操作。FP8精度存储KV缓存,主流推理引擎早就在做了。Google的突破在于把精度压得更低、速度损失更小,但这属于"做得更好",不是"从零到一"。
换句话说,TurboQuant是推理优化军备赛的一枚新弹药,不是内存定价体系的颠覆者。
谁真受益
对模型开发者和推理服务商来说,这确实是实打实的成本杠杆。内存占用降6倍,意味着同样硬件能支撑的并发请求数大幅上扬,或者可以用更便宜的硬件跑同等负载。
Google在博客中强调,TurboQuant的代码和模型即将开源。这对被英伟达生态锁死的中小企业是个窗口——如果能在消费级GPU或自研芯片上跑通低精度KV缓存,推理成本曲线会明显下弯。
但成本转移的方向值得玩味。省下的内存预算,大概率会被重新投入更长的上下文窗口、更大的批量推理,或者更激进的模型规模。技术优化释放的算力红利,历史上从没变成终端价格的下降,只会变成产品功能的膨胀。
DRAM厂商对此心知肚明。SK海力士在最新财报电话会里提到,即使推理效率持续优化,AI工作负载的内存密度需求仍在以每年2-3倍的速度增长。TurboQuant这类技术,不过是把增长曲线从"陡峭"调成了"较陡峭"。
一个待解的悖论
Google的研究团队没有回避代价。2.5位精度已经接近信息论极限,再往下压,质量损失的边际成本会陡然上升。他们目前的测试集中在特定模型架构上,泛化性仍是未知数。
更现实的约束来自软件栈。TurboQuant要发挥效能,需要推理引擎、编译器、驱动层的深度配合。Google自家TPU和英伟达GPU的路径差异,意味着这项技术短期内很难跨平台即插即用。
一位在硅谷做推理优化的工程师在Hacker News评论:「我们去年就试过类似思路,但生产环境里精度回退的调试成本太高,最后退回FP8。Google能开源的话,至少省掉我们三个月的踩坑时间。」
这大概是TurboQuant最诚实的价值定位——不是救世主,而是把行业共识往前推了一步。至于DRAM价格?该涨还是涨,和你我用的AI产品会不会因此便宜,是两码事。
当Google把2.5位精度的KV缓存塞进开源仓库时,第一批下载的会是谁——急着降本的云厂商,还是想绕过英伟达生态的芯片新势力?
热门跟贴