谷歌论文“弄虚作假”手段曝光：基线从C++改Python单核，自己用A100 GPU|gpu|python|基线|弄虚作假|知名企业|算法|谷歌论文

最近，谷歌论文 TurboQuant 引发全球内存股震荡，之后论文原作者也出来澄清，称谷歌 TurboQuant 歪曲了他们的算法成果（见文末相关阅读链接）。那么这篇论文中提到的“性能奇迹”是怎么来的？

此前，谷歌Research官方账号发布过一则宣传帖。谷歌在帖子里说，他们的新压缩算法TurboQuant能把LLM的key-value cache内存至少减少6倍，同时带来最高8倍的速度提升，而且精度完全不损失。

谷歌这篇文章里面详细介绍了这个算法，还链接了arXiv论文2504.19874。博客和论文里反复强调，TurboQuant在LongBench、Needle-in-a-Haystack等基准测试中表现完美，内存压缩到3-3.5比特每通道，速度比32位全精度快很多，实验硬件是NVIDIA A100 GPU（论文明确说所有实验都在单张A100上跑）。

对此，有博主就指出，谷歌把对照组从之前的C++实现改成了Python单线程、单核CPU跑，而自己的TurboQuant算法却在A100 GPU上跑。这样一对比，内存减少倍数和性能提升倍数当然显得特别大。原来大家用C++做基准的时候，对照组本身就很快，现在换成最慢的Python单线程单核CPU，对照组自然慢得一塌糊涂，自己的GPU实现一比就“8倍加速”了。论文里虽然没把这句话写在标题上，但实验描述和实现细节里能看出，基线方法（比如Product Quantization和RabitQ）是CPU上的非向量化实现，而TurboQuant直接用GPU加速，量化时间从几百秒直接降到0.001秒左右，这种硬件和实现方式的差异直接放大了性能差距。

谷歌这次宣传的重点是“零精度损失、6倍内存节省、8倍加速”，听起来确实能解决LLM推理里的KV cache瓶颈，让长上下文模型跑得更省资源。论文也确实证明了在Llama-3.1-8B-Instruct等模型上，TurboQuant在压缩后和全精度模型得分几乎一样，针在干草堆测试里召回率也完美。

但如果把对照组也换成同样硬件、同样的优化级别，所谓的“倍数提升”会不会就没那么惊人了？以前论文常用C++做高性能基线，这次突然改成Python单线程单核CPU，宣传效果直接拉满，却让读者误以为任何人都能轻松拿到8倍加速。

谷歌这个事情的恶劣之处在于，一开始让大众觉得太厉害了，这玩意儿能提高六倍、八倍！后来看全是假的，搞得业内花了很大时间去验证这东西是真是假，造成极大的浪费。

这件事不是说TurboQuant算法本身没价值。谷歌在向量量化上确实做了理论工作，用PolarQuant和QJL结合的方式解决了传统量化里的内存开销问题，数据无关、在线量化这些特点也确实实用。但宣传的时候，如果基准设置得不够公平，就容易让人觉得论文在“优化”结果而不是客观报告结果。普通开发者看到博客标题，可能会以为只要用上TurboQuant，内存和速度问题就一劳永逸了，可实际落地时还得自己确认基线条件、硬件环境和代码实现，才能知道真实收益到底有多大。

科技圈里类似情况其实不少，论文里硬件不对齐、实现语言不对齐，最后宣传出来的倍数就成了最吸睛的部分。TurboQuant的论文和代码如果公开，大家可以自己复现对照组，看看把Python单线程单核CPU换回C++或者同样GPU优化后的JAX基线，实际加速倍数会变成多少。

总之，谷歌这次TurboQuant在技术上往前走了一步，但宣传里对照组的切换，让“6倍内存减少、8倍性能提升”这个结论需要打个折扣。想真正用到生产环境，还是得自己拿相同条件跑一遍数据，才知道对自己的模型到底有多大帮助。

谷歌歪曲他人算法成果！华人学者实名控诉三大问题，抄袭+造假实锤

一篇论文砸崩存储芯片巨头股价，谷歌干了什么？

谷歌一夜塌房！干崩内存股论文被曝抄袭，华人学者血泪控诉

谷歌TurboQuant压缩算法论文被指抄袭