一篇论文砸崩存储芯片巨头股价,谷歌干了什么?
打开网易新闻 查看更多视频
一篇论文砸崩存储芯片巨头股价,谷歌干了什么?

最近,谷歌论文 TurboQuant 引发全球内存股震荡,之后论文原作者也出来澄清,称谷歌 TurboQuant 歪曲了他们的算法成果(见文末相关阅读链接)。那么这篇论文中提到的“性能奇迹”是怎么来的?

此前,谷歌Research官方账号发布过一则宣传帖。谷歌在帖子里说,他们的新压缩算法TurboQuant能把LLM的key-value cache内存至少减少6倍,同时带来最高8倍的速度提升,而且精度完全不损失。

打开网易新闻 查看精彩图片

谷歌这篇文章里面详细介绍了这个算法,还链接了arXiv论文2504.19874。博客和论文里反复强调,TurboQuant在LongBench、Needle-in-a-Haystack等基准测试中表现完美,内存压缩到3-3.5比特每通道,速度比32位全精度快很多,实验硬件是NVIDIA A100 GPU(论文明确说所有实验都在单张A100上跑)。

对此,有博主就指出,谷歌把对照组从之前的C++实现改成了Python单线程、单核CPU跑,而自己的TurboQuant算法却在A100 GPU上跑。这样一对比,内存减少倍数和性能提升倍数当然显得特别大。原来大家用C++做基准的时候,对照组本身就很快,现在换成最慢的Python单线程单核CPU,对照组自然慢得一塌糊涂,自己的GPU实现一比就“8倍加速”了。论文里虽然没把这句话写在标题上,但实验描述和实现细节里能看出,基线方法(比如Product Quantization和RabitQ)是CPU上的非向量化实现,而TurboQuant直接用GPU加速,量化时间从几百秒直接降到0.001秒左右,这种硬件和实现方式的差异直接放大了性能差距。

打开网易新闻 查看精彩图片

谷歌这次宣传的重点是“零精度损失、6倍内存节省、8倍加速”,听起来确实能解决LLM推理里的KV cache瓶颈,让长上下文模型跑得更省资源。论文也确实证明了在Llama-3.1-8B-Instruct等模型上,TurboQuant在压缩后和全精度模型得分几乎一样,针在干草堆测试里召回率也完美。

但如果把对照组也换成同样硬件、同样的优化级别,所谓的“倍数提升”会不会就没那么惊人了?以前论文常用C++做高性能基线,这次突然改成Python单线程单核CPU,宣传效果直接拉满,却让读者误以为任何人都能轻松拿到8倍加速。

谷歌这个事情的恶劣之处在于,一开始让大众觉得太厉害了,这玩意儿能提高六倍、八倍!后来看全是假的,搞得业内花了很大时间去验证这东西是真是假,造成极大的浪费。

这件事不是说TurboQuant算法本身没价值。谷歌在向量量化上确实做了理论工作,用PolarQuant和QJL结合的方式解决了传统量化里的内存开销问题,数据无关、在线量化这些特点也确实实用。但宣传的时候,如果基准设置得不够公平,就容易让人觉得论文在“优化”结果而不是客观报告结果。普通开发者看到博客标题,可能会以为只要用上TurboQuant,内存和速度问题就一劳永逸了,可实际落地时还得自己确认基线条件、硬件环境和代码实现,才能知道真实收益到底有多大

科技圈里类似情况其实不少,论文里硬件不对齐、实现语言不对齐,最后宣传出来的倍数就成了最吸睛的部分。TurboQuant的论文和代码如果公开,大家可以自己复现对照组,看看把Python单线程单核CPU换回C++或者同样GPU优化后的JAX基线,实际加速倍数会变成多少。

总之,谷歌这次TurboQuant在技术上往前走了一步,但宣传里对照组的切换,让“6倍内存减少、8倍性能提升”这个结论需要打个折扣。想真正用到生产环境,还是得自己拿相同条件跑一遍数据,才知道对自己的模型到底有多大帮助。

【相关阅读】

一论文引发全球内存股震荡!原作者澄清:Google TurboQuant 歪曲我们的算法成果

谷歌歪曲他人算法成果!华人学者实名控诉三大问题,抄袭+造假实锤

一篇论文砸崩存储芯片巨头股价,谷歌干了什么?

谷歌一夜塌房!干崩内存股论文被曝抄袭,华人学者血泪控诉

谷歌TurboQuant压缩算法论文被指抄袭