打开网易新闻 查看精彩图片

看过HBO《硅谷》的朋友,大概都记得那家叫Pied Piper的虚构公司。男主角发明的"中间压缩算法"能把文件压得极小,还因此改写了互联网规则。

当时我们都当编剧在放飞想象力。直到Google Research正式发布TurboQuant。

这条技术新闻原本枯燥得像财报脚注,却在24小时内收割1280万次浏览。原因很简单:它的设定和Pied Piper几乎一模一样——在不损失性能的前提下,把AI的"工作记忆"压缩至少6倍。

市场反应更诚实。美股存储芯片板块当天遭遇抛售,美光、闪迪齐齐收跌。一个纯软件层面的算法创新,凭什么让卖硬件的先慌了?

先说清楚TurboQuant到底在解决什么。

现在的AI模型越喂越大,显存胃口像个填不满的黑洞。尤其是你跟AI聊天的时候,它得记住你们聊过的所有内容,这叫KV Cache(键值缓存)。每蹦出一个词,模型就把它转成高维向量塞进GPU。对话越长,这份"数字备忘录"膨胀越快,很快就把显存撑爆。这就是为什么你的AI助手聊久了会"变笨"或者直接报错——字面意义上的脑容量不够。

更麻烦的是传统压缩方法的死结:解压需要"量化常数"这种元数据。听起来鸡毛蒜皮,加起来却能吃掉压缩带来的全部收益,白忙活一场。

Google的解法分两步走。

打开网易新闻 查看精彩图片

第一阶段PolarQuant做几何变换,把数据向量从直角坐标系搬到极坐标系,拆成"半径"和"角度"。转换后角度的分布变得高度可预测,模型不再需要为每个数据块单独存储昂贵的归一化常数,直接映射到固定网格就行,开销归零。

第二阶段QJL(量化Johnson-Lindenstrauss变换)充当数学纠错器。它把压缩残留的误差投影到低维空间,再压缩成符号位(+1或-1)。这保证了AI计算"注意力分数"时,压缩版和高精度原版在统计意义上完全一致。

打个比方:以前AI记笔记是"逐字逐句抄写",TurboQuant则发明了一套"极简速记符号"——该记的一个不漏,占的地方少了六倍。

对企业最友好的点是:不用重新训练模型。你手头现成的开源模型或微调版本,套上就能跑,无需额外数据集,也不用再走一遍训练流程。

实测数据方面,"大海捞针"测试里让AI从10万个词中找一句话,TurboQuant在Llama-3.1-8B和Mistral-7B上跑出满分召回率,KV Cache显存占用压缩6倍以上。LongBench综合评测(问答、代码、长文摘要)全面追平或超过此前最强基线KIVI。

英伟达H100上的数字更直观:4位精度TurboQuant计算注意力逻辑的速度,比未压缩32位方案快8倍。

论文发布24小时内,社区已经开始动手。Apple Silicon MLX框架的开发者Prince Canuma完成移植,测试Qwen3.5-35B模型,上下文从8500到64000 token全覆盖,各量化等级均实现100%精确匹配。他还发现2.5位TurboQuant能把KV Cache压缩近5倍,准确率零损失。

Cloudflare CEO Matthew Prince甚至称其为Google的"DeepSeek时刻"。

打开网易新闻 查看精彩图片

一年前DeepSeek用极低成本训练出高性能模型,打破了"高投入才有高产出"的行业迷信。那次冲击让所有人意识到:光有大模型不够,还得跑得起、跑得快。

TurboQuant正是这一脉络的产物。若从实验室走向大规模应用,商业价值肉眼可见:同一张H100,推理成本理论上直接砍半;端侧部署门槛大幅降低,以前需要32位精度的大模型,Mac Mini或本地服务器就能流畅运行。

存储芯片的抛售反应,说明过去两年支撑其估值的核心逻辑——AI对显存的需求只会越来越大——第一次在技术层面被动摇。

但冷水还是要泼。

历史上每次效率提升往往带动总需求增长,经济学叫"杰文斯悖论"。AI跑得更便宜,可能意味着用的人更多、频率更高,最终算力消耗反而增加。这场"显存危机"会不会因此化解,还真不好说。

此外,TurboQuant目前仍在实验室阶段。Google计划在下月ICLR 2026大会正式展示,同步亮相AISTATS 2026。但从论文到大规模生产,中间隔着工程适配、架构兼容性测试、真实场景验证,每一关都不轻松。

有社区用户指出,论文底层研究去年四月就已公开,眼下舆论多少有点追着旧闻起哄。若存储股因此大跌,恰恰暴露市场里有多少人没搞清楚边界——"丰田出了新混动引擎,石油就该崩盘"式的误判。

更重要的是,TurboQuant只解决推理阶段的显存瓶颈,训练阶段的消耗仍是另一座大山。从头训练主流量级大模型,所需算力依然是天文数字。

《硅谷》里,Pied Piper的压缩算法最终改变了整个互联网。现实中TurboQuant的野心没那么大,目标只是让AI在有限物理空间里记得更多、算得更快、跑得更便宜。

现实终究不是好莱坞剧本。不必彻底改变互联网,能和AI聊得更长、不再半途报错,已经是很多人想要的了。