近日,2017 年图灵奖得主、被称为“RISC 之父”的 David Patterson 最近与 Google DeepMind 高级工程师马晓宇在 IEEE Computer 联合发表了一篇论文——“关于大语言模型推理硬件的挑战与研究方向”,引发了科技圈的关注与讨论。

(来源:arXiv)
打开网易新闻 查看精彩图片
(来源:arXiv)

David Patterson,这位 RISC 架构的奠基人、影响了全球 99% 微处理器设计的计算机科学家,在论文开篇就抛出了一个尖锐的判断:当前 AI 芯片的设计思路,即满载的算力、堆叠的 HBM(High Bandwidth Memory,高带宽内存)、带宽优先的互联,与大语言模型推理的实际需求严重错配。

(来源:UC Berkeley)
打开网易新闻 查看精彩图片
(来源:UC Berkeley)

在某种程度上,这可以说是对整个 AI 芯片产业的当头棒喝。Patterson 在文中直言,LLM 推理正处于危机之中,不是技术上的危机,而是经济上的。因为,越来越多的公司们发现,即便拥有最先进的 GPU 集群,为最先进的模型提供推理服务依然在大把烧钱。

根据多家媒体报道,微软、亚马逊、谷歌、Meta 四大科技巨头在 2026 年 AI 相关资本总开支预计达到约 6,000 亿美元。这一规模相比 2025 年约 3,880 亿美元,增长约 50% 以上。

尽管具体数字可能存在分歧,但行业共识是:推理成本正在吞噬 AI 公司的利润空间。一边是飙升的成本,一边是爆炸式增长的需求,这个行业正在经历一场严峻的经济考验。

(来源:四家公司财报数据)
打开网易新闻 查看精彩图片
(来源:四家公司财报数据)

对于这个问题,Patterson 和马晓宇在论文中指出,根源在于 LLM 推理的两个阶段有着截然不同的计算特性。

Prefill(预填充)阶段处理输入序列的所有 token,类似于训练过程,是计算密集型的,现有 GPU/TPU 可以较好地应对。但 Decode(解码)阶段则完全不同。它是自回归的,每一步只生成一个输出 token,这使得它天然是内存带宽受限的。

现有的 AI 加速器,从设计之初就是为训练优化的,推理只是被当作训练系统的“缩小版”来对待。结果就是,最昂贵、最强大的芯片,在跑推理任务时可能只发挥了很小一部分能力。

而且让情况雪上加霜的是,最近涌现的一系列 LLM 新趋势正在进一步加剧推理的难度。论文列举了 6 大压力源:

首先是 MoE(Mixture of Experts,混合专家)架构的兴起,以 DeepSeek V3 为例,它使用了 256 个路由专家,虽然每个 token 只激活其中 8 个,但整个模型的参数量达到了 6,710 亿。MoE 虽然降低了训练成本,却大幅扩展了推理时的内存占用和通信开销。

其次是推理模型(Reasoning Models)的流行,它们在输出最终答案前会生成大量思考 token,这不仅拉长了生成时间,还让内存中的 KV Cache(Key Value Cache,键值缓存)承受更大压力。

此外还有多模态的扩展:从纯文本走向图像、音频、视频生成,数据量急剧膨胀。长上下文(Long Context)需求的增长同样带来计算和内存的双重压力;RAG(Retrieval-Augmented Generation,检索增强生成)通过引入外部知识库增加了推理的资源消耗;最后是 Diffusion 模型,虽然它与上述趋势不同,只增加计算需求而非内存,但也代表了推理复杂度提升的又一个方向。

面对这些挑战,论文将问题归结为两堵“墙”:内存墙与延迟墙。

内存墙的本质是硬件发展的不均衡。Patterson 引用了一组数据:从 2012 年到 2022 年,NVIDIA GPU 的 64 位浮点运算能力提升了 80 倍,但内存带宽只增长了 17 倍。这个差距还在持续扩大。

更麻烦的是,HBM 的成本不降反升。论文援引花旗银行的研究数据指出,从 2023 年到 2025 年,HBM 的单位容量成本(/GB)和单位带宽成本(/GB)和单位带宽成本(/GB)和单位带宽成本(/GBps)都上涨了约 35%。这与传统 DDR DRAM 形成了鲜明对比,后者的成本在同期下降了近一半。

打开网易新闻 查看精彩图片
(来源:论文)
打开网易新闻 查看精彩图片
(来源:论文)

造成这种分化的原因在于制造工艺:HBM 需要堆叠多层 DRAM die,封装难度随着堆叠层数和密度的增加而上升,良率问题愈发严峻。

(来源:论文)
打开网易新闻 查看精彩图片
(来源:论文)

与此同时,DRAM 密度增长正在减速。从 2014 年推出 8Gbit DRAM die 到实现四倍增长,将耗费超过 10 年时间,而之前这一周期只需 3 到 6 年。

有些公司曾尝试用纯 SRAM 的方案绕开 DRAM 和 HBM 的限制,比如 Cerebras 用晶圆级集成堆满 SRAM,Groq 也采用了类似策略。但 LLM 的参数规模很快就超出了片上 SRAM 的容量,两家公司后来都不得不加入外部 DRAM 支持。

延迟墙的问题同样棘手。与动辄数周的训练不同,推理是实时的。用户发出请求,期望在几秒甚至更短时间内得到响应。这意味着端到端延迟至关重要。论文区分了两种延迟指标:time-to-completion(完成时间)和 time-to-first-token(首 token 时间)。长输出序列会拉长前者,长输入序列和 RAG 会影响后者,而推理模型由于生成大量思考 token,会同时拖慢两者。

过去,数据中心的推理通常在单芯片上完成,只有训练需要超级计算机级别的集群。因此,连接这些芯片的互联网络主要优化带宽而非延迟。但 LLM 改变了游戏规则:模型太大,推理也需要多芯片系统;软件层面的分片(sharding)意味着频繁通信;而 Decode 阶段的小 batch size 导致网络消息往往很小。对于这种“频繁、小消息、大网络”的场景,延迟比带宽更重要。

基于这些分析,Patterson 和马晓宇提出了四个值得研究的方向,试图重新思考 LLM 推理硬件的设计逻辑。

第一个方向是高带宽闪存(HBF,High Bandwidth Flash)。这个概念最早由 SanDisk 提出,SK Hynix 后来也加入了开发。它的思路是像 HBM 那样堆叠闪存 die,从而获得接近 HBM 的带宽和 10 倍于 HBM 的容量。论文给出了一组对比数据:单个 HBF 堆栈可以提供 512GB 容量和超过 1,600GB/s 的读取带宽,而单个 HBM4 堆栈只有 48GB 容量。

HBF 的弱点在于写入耐久性有限和读取延迟较高(微秒级),这意味着它无法替代所有 HBM,但非常适合存储推理时几乎不更新的模型权重,或者变化缓慢的上下文数据,比如用于 LLM 搜索的网页语料库、用于代码助手的代码库,甚至研究论文库。更重要的是,闪存容量还在以每三年翻倍的速度增长,这是 DRAM 已经难以企及的节奏。

第二个方向是近内存计算(PNM,Processing-Near-Memory),它与历史上的 PIM(Processing-in-Memory,内存内计算)概念有所不同。PIM 将计算逻辑直接集成在 DRAM die 内部,虽然带宽极高,但面临软件分片复杂、计算能力受限于 DRAM 工艺的功耗和面积约束等问题。

DRAM 工艺节点并不适合高性能逻辑电路。PNM 则将计算逻辑放在内存附近但仍是独立 die,通过 3D 堆叠或高速互联与内存连接。

论文认为,对于数据中心 LLM 推理而言,PNM 比 PIM 更实际:它的分片粒度可以大 1,000 倍(GB 级而非 MB 级),逻辑工艺可以独立优化,且不影响内存密度和成本。不过论文也指出,对于移动设备上的 LLM,由于模型更小、批次更小、能耗约束更严格,PIM 的劣势可能不那么明显,反而值得探索。

第三个方向是 3D 计算-逻辑堆叠。与传统 2D 芯片通过 die 边缘连接内存不同,3D 堆叠使用垂直的 TSV(Through Silicon Via,硅通孔)实现宽而密的内存接口,可以在更低功耗下获得更高带宽。

这个方向有两种实现路径:一种是在 HBM 的 base die 上集成计算逻辑,复用现有 HBM 设计,带宽与 HBM 相当但功耗降低 2 到 3 倍;另一种是定制化 3D 方案,通过更宽更密的接口和更先进的封装技术,实现超越 HBM 的带宽和效率。挑战在于散热:3D 结构的表面积更小,散热更难,以及需要建立内存-逻辑接口的行业标准。

第四个方向是低延迟互联。论文建议重新审视网络设计中延迟与带宽的权衡。具体措施包括:采用高连接性拓扑(如树形、蜻蜓、高维 Torus),减少跳数从而降低延迟;引入网络内处理(Processing-in-Network),让 LLM 常用的通信原语(如 all-reduce、MoE 的 dispatch 和 collect)在交换机中加速;优化芯片设计,让小包数据直接存入片上 SRAM 而非外部 DRAM,或将计算引擎靠近网络接口以缩短传输时间;甚至在可靠性设计上做文章,部署本地备用节点减少故障迁移的延迟和吞吐影响,或者在 LLM 推理对完美通信要求不高时,用假数据或历史结果替代超时消息,而非等待掉队者。

Patterson 在论文中还不忘强调个人观点:他批评了当前学术界与产业界的脱节。1976 年他入行时,计算机架构会议上约 40% 的论文来自工业界,而到 2025 年的 ISCA(International Symposium on Computer Architecture),这个比例已经跌破 4%。

他呼吁学术研究者把握 LLM 推理这个"诱人的研究目标",并建议开发基于 Roofline 模型的性能模拟器,配合现代的性能/成本指标(如 TCO、功耗、碳排放),为 AI 推理硬件创新提供更实用的评估框架。

当前,全球正经历一场因 AI 引发的内存供应危机。由于 HBM 生产挤占了传统 DRAM 的晶圆产能,2026 年全球 DRAM 价格大幅上涨。三星、SK Hynix 等厂商正将更多资源转向高利润的 HBM 产品线,这虽然满足了 AI 数据中心的需求,却加剧了消费级内存的短缺。这种供应紧张可能持续到 2027 年甚至更久。

在这种背景下,Patterson 提出的 HBF、PNM 等替代路径,或许不仅是技术上的探索,也是产业寻找 Plan B 的现实需求。

当然,论文也承认这些方向并非可以一蹴而就的方案。每一个都涉及复杂的工程权衡:HBF 需要解决软件如何处理有限写入耐久性和高延迟读取的问题;PNM 和 3D 堆叠需要新的软件分片策略和内存-逻辑接口标准;低延迟互联可能需要牺牲部分带宽。

论文鼓励将这些方向组合使用,因为它们在很大程度上是互补的。更高的内存带宽可以缩短每次 Decode 迭代的延迟,更大的单节点内存容量可以减少系统规模从而降低通信开销。

作为 RISC 架构的共同发明人、RAID 存储系统的开创者,Patterson 的职业生涯几乎就是"挑战现有范式"的代名词。40 多年前,他和 John Hennessy 提出的精简指令集思想曾被工业界视为异端,如今 99% 的新芯片都采用 RISC 架构。

Patterson 和马晓宇选择发表这篇论文的方式也很有意思,它不是一篇技术细节密集的顶会论文,而是发在 IEEE Computer 这本面向更广泛读者的杂志上,语气像是在发布一封公开信。值得注意的是,他们在致谢中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young,这串名字几乎覆盖了 Google AI 基础设施的核心架构师。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

运营/排版:何晨龙