打开网易新闻 查看精彩图片

周二下午,Google Research的博客更新了一篇技术文章。三小时后,美光跌3%,西部数据跌4.7%,闪迪跌5.7%。

资本市场对技术细节的敏感度,有时候比产品经理还快。

一篇论文如何让硬件股蒸发数十亿

一篇论文如何让硬件股蒸发数十亿

这篇论文的核心是一种叫TurboQuant的压缩算法,专门针对大语言模型的键值缓存(Key-Value Cache,简称KV Cache)。简单说,这是模型用来"记住"对话上下文的高速存储区——你问ChatGPT一个长问题,它得靠这个缓存来理解前文,而不是每生成一个新词就把整段话重新算一遍。

问题是,这个缓存随着对话变长会指数级膨胀。以前的标准做法是每个数值存16比特,TurboQuant直接压到3比特,内存占用砍掉至少6倍。Google的测试显示,精度损失"无法测量"——不是"很小",是仪器测不出来。

投资者的反应很直接:如果AI行业需要的物理内存突然变成六分之一,那美光、三星、SK海力士的出货量预期该怎么算?

为什么以前的压缩算法"货不对板"

量化压缩不是新概念。但大多数方法有个隐藏的坑:它们宣传的压缩比是理论值,实际落地要额外存储归一化常数——每个数还得再加1到2比特。标称8比特,实际可能接近10比特,厂商发布会从不提这个。

TurboQuant的两步走设计绕过了这个坑。第一步PolarQuant把数据从直角坐标转成极坐标,把向量拆成"长度+角度"。角度的分布高度集中且可预测,系统直接跳过按块归一化的步骤。第二步QJL(基于Johnson-Lindenstrauss变换)把第一步的残余误差压到每个维度只剩1个符号位。

结果是:3比特里,绝大部分预算花在存原始数据的信息,最小份额做误差修正,零比特浪费在归一化常数上。

这有点像视频编码里的帧内预测——不是粗暴压画质,而是利用数据本身的结构特性,把"必须存的东西"和"可以算出来的东西"分开。

测试覆盖了谁家的模型

测试覆盖了谁家的模型

打开网易新闻 查看精彩图片

Google在五个长上下文基准上验证了TurboQuant,包括LongBench、Needle in a Haystack和ZeroSCROLLS。测试对象不是自家封闭模型,而是开源的Gemma、Mistral和Llama系列。

选这些模型有讲究。Gemma是Google自家的,但Mistral和Llama代表了当前开源社区的主流架构。如果在这些模型上都能跑通,说明算法不依赖特定实现细节,是通用解法。

论文作者名单也值得注意。Amir Zandieh和Vahab Mirrokni来自Google Research,后者是Google Fellow(公司最高技术职级之一)。合作方包括Google DeepMind、韩国KAIST和纽约大学。这个组合说明项目横跨了研究院、产品线和学术界。

论文将在ICLR 2026正式发表,但代码和博客已经放出。这种"先发博客、后发顶会"的节奏,Google近年越来越常用——既抢舆论阵地,也给同行施压。

硬件厂商的算盘要重打

硬件厂商的算盘要重打

内存股暴跌的逻辑链很清晰:AI训练已经吃掉了全球DRAM产能的相当份额,HBM(高带宽内存)更是供不应求。如果推理侧的内存需求被压缩算法砍掉六分之五,那之前按线性增长做的资本开支模型就全错了。

但这里有个时间差。TurboQuant优化的是推理阶段的KV Cache,训练阶段的压力没变。而当前内存厂商的产能紧张,很大程度上是训练需求驱动的。推理优化会不会传导到训练硬件的采购决策,还要看云厂商的反馈。

更微妙的是,压缩算法本身也需要算力支持。PolarQuant的坐标转换、QJL的矩阵运算,都要在GPU上跑。内存省了,计算多了,总拥有成本怎么变,还得看具体部署场景。

西部数据和闪迪的跌幅比美光更大,可能反映了市场对消费级存储的悲观——如果企业级AI内存需求见顶,消费级又没什么新故事,两头受压。

一个还没人回答的问题

一个还没人回答的问题

这篇论文的致谢部分提到,TurboQuant的部分灵感来自早期与Anthropic的技术讨论。两家公司在压缩算法上的交流,是纯粹学术合作,还是涉及更深层的标准制定博弈?

如果3比特量化成为行业事实标准,谁来定义这个标准的技术细节,谁就掌握了下一代AI基础设施的话语权。Google选择先把论文发出来,而不是藏在产品里,这个决策本身就是在投票。

美光的股价在周三小幅反弹,但成交量放大。市场在等一个答案:云厂商的采购部门,会不会把TurboQuant的测试结果写进明年的RFP(需求建议书)?