DeepMind憋了18个月的解码技术，被自家论文一句话拆台

野生运营

2026-04-08 00:35 ·北京

Google DeepMind今天发了篇论文，讲他们怎么让大模型推理更快。名字叫"warp decode"，听着像科幻片里的跃迁引擎，其实就是把GPU显存当高速缓存用，减少模型搬数据的次数。

技术细节很枯燥，但有个数字很扎眼：团队说这比传统方法快2倍，内存占用还少一半。论文挂在arXiv上，作者列表里有不少熟悉的名字——去年Gemini推理加速那帮人。

有意思的是发布时间。18个月前，DeepMind就在内部立项搞这个，当时GPT-4刚出来，整个行业都在卷推理成本。一位参与项目的研究员在论文里写：「我们最初的假设是显存带宽才是瓶颈，结果后来发现是调度策略。」

换句话说，他们花了一年半，把假设推翻重来了好几次。论文里没提的是，这技术能不能追上OpenAI的推理优化——后者上个月刚把API延迟砍了40%。

DeepMind把代码和模型权重都开源了，包括一个70B的测试版本。但评论区有人吐槽：「70B跑起来还是要A100，小厂根本玩不起。」

论文最后附了个链接，说完整技术报告还在写。有开发者跟帖：「Google的经典操作——先发论文占坑，文档慢慢补。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴