Google DeepMind今天发了篇论文,讲他们怎么让大模型推理更快。名字叫"warp decode",听着像科幻片里的跃迁引擎,其实就是把GPU显存当高速缓存用,减少模型搬数据的次数。

技术细节很枯燥,但有个数字很扎眼:团队说这比传统方法快2倍,内存占用还少一半。论文挂在arXiv上,作者列表里有不少熟悉的名字——去年Gemini推理加速那帮人。

有意思的是发布时间。18个月前,DeepMind就在内部立项搞这个,当时GPT-4刚出来,整个行业都在卷推理成本。一位参与项目的研究员在论文里写:「我们最初的假设是显存带宽才是瓶颈,结果后来发现是调度策略。」

换句话说,他们花了一年半,把假设推翻重来了好几次。论文里没提的是,这技术能不能追上OpenAI的推理优化——后者上个月刚把API延迟砍了40%。

DeepMind把代码和模型权重都开源了,包括一个70B的测试版本。但评论区有人吐槽:「70B跑起来还是要A100,小厂根本玩不起。」

论文最后附了个链接,说完整技术报告还在写。有开发者跟帖:「Google的经典操作——先发论文占坑,文档慢慢补。」