「他们不仅不愿意在谷歌博客更正这两个方法的相似性,并且只同意在ICLR 2026会议结束后才会修正论文。」高健扬在等了一天、未获谷歌副总裁回复后,选择了公开发声。

2026年3月25日,谷歌Research官方博客发布TurboQuant论文,宣称可将大模型KV Cache内存占用减少6倍。当日内存股集体大跌。但很快,这项研究陷入学术不端风波:涉嫌隐瞒核心技术借鉴、错误贬低先行研究、实验中进行极度不公平的硬件对比——且作者团队明知存在大量事实性错误,仍将一年前公布的预印本投稿至ICLR 2026。

打开网易新闻 查看精彩图片

这场争议的另一方RaBitQ,是2024年提出并开源的向量压缩算法。它已被20多家国内外互联网大厂和数据库厂商引入产品。两位作者——新加坡南洋理工大学副教授龙程、苏黎世联邦理工学院博士后高健扬——在发声前已尝试沟通近一年。

我们4月初与两位作者进行了深入交流。以下从五个维度拆解这场小团队与大公司的学术较量。

一、沟通时间线:近一年的私下努力

RaBitQ团队的行动远早于公开舆论。

2025年5月,他们开始积极联络TurboQuant团队,希望修正论文事实性错误。2025年11月,通过官方渠道联系ICLR 2026 PC Chairs。2026年3月公开发声前,再次向PC Chairs发出请求,希望对TurboQuant进行正式的学术道德审查。

高健扬提到,谷歌官方博客发布后,他第一时间给TurboQuant所有作者发邮件要求更正。收到的回复来自第一作者Amir Zandieh,态度强硬:拒绝在谷歌博客更正方法相似性,仅同意在ICLR 2026会议结束后修正论文。

「错误的事实已经大规模传播了,这种以冷处理的方式我们无法接受。」

等待一天,未获其他作者回复,尤其是最后一位作者——谷歌副总裁Vahab Mirrokni——的回应后,高健扬选择公开。

二、技术溯源:向量检索的三十年演进

要理解RaBitQ的位置,需要回到向量检索的历史脉络。

龙程介绍,相关研究可追溯至1990年代末期。1998年,Piotr Indyk与导师Rajeev Motwani提出局部敏感哈希(LSH),解决高维数据的近似搜索问题。当时「高维数据」本质就是高维向量——一张图片的长、宽、颜色等特征组合成一个向量,典型应用是搜图。

2014至2015年后,深度学习普及,文字、图片、音频、视频均可通过表征技术转化为高维向量。业界开始开发专门存储、管理和查询这些非结构化数据的系统。

算法层面,基于图的索引(如HNSW)和倒排索引方法涌现。工业界代表是Facebook Research(现Meta)发布的Faiss库。2017年Faiss和HNSWlib开源后,向量检索长期以HNSW图索引、IVF倒排索引为主要演进路线。

龙程团队在2021年底进入该领域,契机是高健扬攻读博士需要确定课题。经过几个月探索,选定向量搜索方向。「当时我们也没有意识到后面会有如此大的应用前景。」

2022年底ChatGPT出现后,检索增强生成(RAG)技术流行:将问题提交给大模型前,先从知识库搜索相关上下文,结合后再提交,以获得更准确、更具时效性、更少幻觉的答案。向量数据库在大模型推理pipeline中的作用被广泛认识。

2023年美国西雅图SIGMOD会议期间,各类向量数据库大量涌现。龙程记得,「那个时候,开源的、闭源的、基于通用数据库扩展的、专门针对向量数据开发的系统」都在出现。

三、RaBitQ的技术定位:从存储痛点切入

高健扬是VectorDB@NTU最早从事向量量化与向量检索研究的博士生,RaBitQ系列是他的第一作者成果。

他这样解释RaBitQ的核心目标:解决向量存储空间占用大的问题。它利用高维空间中的特殊性质,在大幅缩减向量存储空间的同时,仍能保证使用压缩后的向量进行精确计算。

具体研究脉络上,2023年团队发表「ADSampling」,提升向量数据库中两个向量间距离计算算子的速度。随后设计出RaBitQ向量压缩算法,成果发表在数据库顶会SIGMOD 2024和SIGMOD 2025。

此后围绕RaBitQ这一基础算法,团队将其与向量数据库中流行的索引结构结合。2025年发表的新工作「SymphonyQG」,是图索引与RaBitQ结合的成果。

近期与英伟达合作,致力于GPU加速场景下的向量检索,成果正在英伟达cuVS向量检索库的预审阶段。

目前RaBitQ已得到多个版本演进,包括重构代码及开源RaBitQ Library。在向量检索之外的场景,如大模型KV Cache量化等工程解法,RaBitQ依然存在可拓展空间。

四、产业渗透:20多家厂商的实际采用

技术价值最终由产业验证。

RaBitQ已被20多家国内外互联网大厂和数据库厂商引入其向量产品。这一数字在2024年算法提出并开源后快速积累。

向量压缩的需求背景是明确的:随着大模型应用爆发,向量数据的存储和检索成本急剧上升。无论是RAG场景中的知识库向量,还是大模型推理中的KV Cache,内存占用都是核心瓶颈。

TurboQuant宣称的「6倍压缩」之所以引发市场剧烈反应,正是因为戳中了这一痛点。但争议在于:其技术路径与RaBitQ的相似性未被恰当披露,且实验对比存在硬件不公。

高健扬的邮件沟通记录显示,对方团队对「方法相似性」这一核心质疑采取回避态度。这种处理方式,与RaBitQ团队近一年来的多次私下沟通尝试形成对照。

五、学术较量的未完结态

截至访谈时,这场争议的输赢暂无定论。

TurboQuant作者团队曾做出公开澄清,但未正面回应隐瞒借鉴、贬低先行研究、硬件对比不公等问题。ICLR 2026的学术道德审查请求仍在流程中。

对RaBitQ团队而言,公开发声是沟通失败后的最后选项。高健扬的表述很直接:错误事实已经大规模传播,冷处理无法接受。

一个细节值得注意:谷歌副总裁Vahab Mirrokni作为TurboQuant最后一位作者,在整轮沟通中未予回复。这种沉默,与第一作者的强硬回复共同构成了对方的应对策略。

向量检索领域的发展脉络中,开源社区与学术规范一直是技术进步的底层基础设施。Faiss和HNSWlib的开源奠定了2017年后的技术路线,RaBitQ的开源延续这一传统。当大公司的研究团队被质疑违背这些规范时,小团队的坚守本身成为了一种技术之外的变量。

龙程和高健扬的学术背景提供了这种坚守的底气:前者是VectorDB@NTU负责人,后者是该实验室最早从事向量量化研究的博士生。他们的工作从2021年底开始,经历了向量数据库从冷门到热门的完整周期,也见证了RAG技术如何将基础研究转化为产业刚需。

这场较量的结果,将影响的不仅是两篇论文的声誉归属,还包括学术社区对「大公司研究」信任成本的重新计算。

毕竟,当「6倍压缩」的消息能让内存股大跌时,市场已经在用脚投票——只是这次,它可能投错了方向。