做LLM推理的人有个共识:模型权重只是首付,KV Cache才是月供刺客。用户聊得越久,显存账单越离谱,长到能吃掉你整年的云预算。
3月25日,Google Research发了篇博客,附带两篇顶会论文。没发布会,没CEO站台,连Twitter都没置顶。但内存芯片的股价在三小时内开始跳水,从东京到纳斯达克,一片绿。
他们管这叫TurboQuant。核心就一句话:把KV Cache的精度砍到4-bit,但用动态校准让它看起来还是8-bit的质量。换句话说,显存占用直接腰斩,长上下文推理的成本从"买别墅"变成"付房租"。
「我们证明了4-bit量化可以在生产环境中保持与全精度相当的准确性。」这是论文里最关键的一句。没有"可能",没有"未来有望",是"证明了"和"生产环境"。
亚洲几家HBM供应商的股价当天收跌12%到18%。一位芯片分析师在LinkedIn写:「如果Google开源这个,英伟达的显存溢价叙事就塌了一半。」
Google没提开源。但也没说不。
热门跟贴