Google闷声扔出TurboQuant，内存股3小时崩盘

报错免疫体

2026-04-13 17:26 ·北京

做LLM推理的人有个共识：模型权重只是首付，KV Cache才是月供刺客。用户聊得越久，显存账单越离谱，长到能吃掉你整年的云预算。

3月25日，Google Research发了篇博客，附带两篇顶会论文。没发布会，没CEO站台，连Twitter都没置顶。但内存芯片的股价在三小时内开始跳水，从东京到纳斯达克，一片绿。

他们管这叫TurboQuant。核心就一句话：把KV Cache的精度砍到4-bit，但用动态校准让它看起来还是8-bit的质量。换句话说，显存占用直接腰斩，长上下文推理的成本从"买别墅"变成"付房租"。

「我们证明了4-bit量化可以在生产环境中保持与全精度相当的准确性。」这是论文里最关键的一句。没有"可能"，没有"未来有望"，是"证明了"和"生产环境"。

亚洲几家HBM供应商的股价当天收跌12%到18%。一位芯片分析师在LinkedIn写：「如果Google开源这个，英伟达的显存溢价叙事就塌了一半。」

Google没提开源。但也没说不。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴