RISC之父向AI芯片泼冷水：AI推理不需要更强GPU，需要另一种硬件|dram|gpu|risc|内存价格|推理

近日，2017 年图灵奖得主、被称为“RISC 之父”的 David Patterson 最近与 Google DeepMind 高级工程师马晓宇在 IEEE Computer 联合发表了一篇论文——“关于大语言模型推理硬件的挑战与研究方向”，引发了科技圈的关注与讨论。

David Patterson，这位 RISC 架构的奠基人、影响了全球 99% 微处理器设计的计算机科学家，在论文开篇就抛出了一个尖锐的判断：当前 AI 芯片的设计思路，即满载的算力、堆叠的 HBM（High Bandwidth Memory，高带宽内存）、带宽优先的互联，与大语言模型推理的实际需求严重错配。

在某种程度上，这可以说是对整个 AI 芯片产业的当头棒喝。Patterson 在文中直言，LLM 推理正处于危机之中，不是技术上的危机，而是经济上的。因为，越来越多的公司们发现，即便拥有最先进的 GPU 集群，为最先进的模型提供推理服务依然在大把烧钱。

根据多家媒体报道，微软、亚马逊、谷歌、Meta 四大科技巨头在 2026 年 AI 相关资本总开支预计达到约 6,000 亿美元。这一规模相比 2025 年约 3,880 亿美元，增长约 50% 以上。

尽管具体数字可能存在分歧，但行业共识是：推理成本正在吞噬 AI 公司的利润空间。一边是飙升的成本，一边是爆炸式增长的需求，这个行业正在经历一场严峻的经济考验。

对于这个问题，Patterson 和马晓宇在论文中指出，根源在于 LLM 推理的两个阶段有着截然不同的计算特性。

Prefill（预填充）阶段处理输入序列的所有 token，类似于训练过程，是计算密集型的，现有 GPU/TPU 可以较好地应对。但 Decode（解码）阶段则完全不同。它是自回归的，每一步只生成一个输出 token，这使得它天然是内存带宽受限的。

现有的 AI 加速器，从设计之初就是为训练优化的，推理只是被当作训练系统的“缩小版”来对待。结果就是，最昂贵、最强大的芯片，在跑推理任务时可能只发挥了很小一部分能力。

而且让情况雪上加霜的是，最近涌现的一系列 LLM 新趋势正在进一步加剧推理的难度。论文列举了 6 大压力源：

首先是 MoE（Mixture of Experts，混合专家）架构的兴起，以 DeepSeek V3 为例，它使用了 256 个路由专家，虽然每个 token 只激活其中 8 个，但整个模型的参数量达到了 6,710 亿。MoE 虽然降低了训练成本，却大幅扩展了推理时的内存占用和通信开销。

其次是推理模型（Reasoning Models）的流行，它们在输出最终答案前会生成大量思考 token，这不仅拉长了生成时间，还让内存中的 KV Cache（Key Value Cache，键值缓存）承受更大压力。

此外还有多模态的扩展：从纯文本走向图像、音频、视频生成，数据量急剧膨胀。长上下文（Long Context）需求的增长同样带来计算和内存的双重压力；RAG（Retrieval-Augmented Generation，检索增强生成）通过引入外部知识库增加了推理的资源消耗；最后是 Diffusion 模型，虽然它与上述趋势不同，只增加计算需求而非内存，但也代表了推理复杂度提升的又一个方向。

面对这些挑战，论文将问题归结为两堵“墙”：内存墙与延迟墙。

内存墙的本质是硬件发展的不均衡。Patterson 引用了一组数据：从 2012 年到 2022 年，NVIDIA GPU 的 64 位浮点运算能力提升了 80 倍，但内存带宽只增长了 17 倍。这个差距还在持续扩大。

更麻烦的是，HBM 的成本不降反升。论文援引花旗银行的研究数据指出，从 2023 年到 2025 年，HBM 的单位容量成本（/GB）和单位带宽成本（/GB）和单位带宽成本（/GB）和单位带宽成本（/GBps）都上涨了约 35%。这与传统 DDR DRAM 形成了鲜明对比，后者的成本在同期下降了近一半。

造成这种分化的原因在于制造工艺：HBM 需要堆叠多层 DRAM die，封装难度随着堆叠层数和密度的增加而上升，良率问题愈发严峻。

与此同时，DRAM 密度增长正在减速。从 2014 年推出 8Gbit DRAM die 到实现四倍增长，将耗费超过 10 年时间，而之前这一周期只需 3 到 6 年。

有些公司曾尝试用纯 SRAM 的方案绕开 DRAM 和 HBM 的限制，比如 Cerebras 用晶圆级集成堆满 SRAM，Groq 也采用了类似策略。但 LLM 的参数规模很快就超出了片上 SRAM 的容量，两家公司后来都不得不加入外部 DRAM 支持。

延迟墙的问题同样棘手。与动辄数周的训练不同，推理是实时的。用户发出请求，期望在几秒甚至更短时间内得到响应。这意味着端到端延迟至关重要。论文区分了两种延迟指标：time-to-completion（完成时间）和 time-to-first-token（首 token 时间）。长输出序列会拉长前者，长输入序列和 RAG 会影响后者，而推理模型由于生成大量思考 token，会同时拖慢两者。

过去，数据中心的推理通常在单芯片上完成，只有训练需要超级计算机级别的集群。因此，连接这些芯片的互联网络主要优化带宽而非延迟。但 LLM 改变了游戏规则：模型太大，推理也需要多芯片系统；软件层面的分片（sharding）意味着频繁通信；而 Decode 阶段的小 batch size 导致网络消息往往很小。对于这种“频繁、小消息、大网络”的场景，延迟比带宽更重要。

基于这些分析，Patterson 和马晓宇提出了四个值得研究的方向，试图重新思考 LLM 推理硬件的设计逻辑。

第一个方向是高带宽闪存（HBF，High Bandwidth Flash）。这个概念最早由 SanDisk 提出，SK Hynix 后来也加入了开发。它的思路是像 HBM 那样堆叠闪存 die，从而获得接近 HBM 的带宽和 10 倍于 HBM 的容量。论文给出了一组对比数据：单个 HBF 堆栈可以提供 512GB 容量和超过 1,600GB/s 的读取带宽，而单个 HBM4 堆栈只有 48GB 容量。

HBF 的弱点在于写入耐久性有限和读取延迟较高（微秒级），这意味着它无法替代所有 HBM，但非常适合存储推理时几乎不更新的模型权重，或者变化缓慢的上下文数据，比如用于 LLM 搜索的网页语料库、用于代码助手的代码库，甚至研究论文库。更重要的是，闪存容量还在以每三年翻倍的速度增长，这是 DRAM 已经难以企及的节奏。

第二个方向是近内存计算（PNM，Processing-Near-Memory），它与历史上的 PIM（Processing-in-Memory，内存内计算）概念有所不同。PIM 将计算逻辑直接集成在 DRAM die 内部，虽然带宽极高，但面临软件分片复杂、计算能力受限于 DRAM 工艺的功耗和面积约束等问题。

DRAM 工艺节点并不适合高性能逻辑电路。PNM 则将计算逻辑放在内存附近但仍是独立 die，通过 3D 堆叠或高速互联与内存连接。

论文认为，对于数据中心 LLM 推理而言，PNM 比 PIM 更实际：它的分片粒度可以大 1,000 倍（GB 级而非 MB 级），逻辑工艺可以独立优化，且不影响内存密度和成本。不过论文也指出，对于移动设备上的 LLM，由于模型更小、批次更小、能耗约束更严格，PIM 的劣势可能不那么明显，反而值得探索。

第三个方向是 3D 计算-逻辑堆叠。与传统 2D 芯片通过 die 边缘连接内存不同，3D 堆叠使用垂直的 TSV（Through Silicon Via，硅通孔）实现宽而密的内存接口，可以在更低功耗下获得更高带宽。

这个方向有两种实现路径：一种是在 HBM 的 base die 上集成计算逻辑，复用现有 HBM 设计，带宽与 HBM 相当但功耗降低 2 到 3 倍；另一种是定制化 3D 方案，通过更宽更密的接口和更先进的封装技术，实现超越 HBM 的带宽和效率。挑战在于散热：3D 结构的表面积更小，散热更难，以及需要建立内存-逻辑接口的行业标准。

第四个方向是低延迟互联。论文建议重新审视网络设计中延迟与带宽的权衡。具体措施包括：采用高连接性拓扑（如树形、蜻蜓、高维 Torus），减少跳数从而降低延迟；引入网络内处理（Processing-in-Network），让 LLM 常用的通信原语（如 all-reduce、MoE 的 dispatch 和 collect）在交换机中加速；优化芯片设计，让小包数据直接存入片上 SRAM 而非外部 DRAM，或将计算引擎靠近网络接口以缩短传输时间；甚至在可靠性设计上做文章，部署本地备用节点减少故障迁移的延迟和吞吐影响，或者在 LLM 推理对完美通信要求不高时，用假数据或历史结果替代超时消息，而非等待掉队者。

Patterson 在论文中还不忘强调个人观点：他批评了当前学术界与产业界的脱节。1976 年他入行时，计算机架构会议上约 40% 的论文来自工业界，而到 2025 年的 ISCA（International Symposium on Computer Architecture），这个比例已经跌破 4%。

他呼吁学术研究者把握 LLM 推理这个"诱人的研究目标"，并建议开发基于 Roofline 模型的性能模拟器，配合现代的性能/成本指标（如 TCO、功耗、碳排放），为 AI 推理硬件创新提供更实用的评估框架。

当前，全球正经历一场因 AI 引发的内存供应危机。由于 HBM 生产挤占了传统 DRAM 的晶圆产能，2026 年全球 DRAM 价格大幅上涨。三星、SK Hynix 等厂商正将更多资源转向高利润的 HBM 产品线，这虽然满足了 AI 数据中心的需求，却加剧了消费级内存的短缺。这种供应紧张可能持续到 2027 年甚至更久。

在这种背景下，Patterson 提出的 HBF、PNM 等替代路径，或许不仅是技术上的探索，也是产业寻找 Plan B 的现实需求。

当然，论文也承认这些方向并非可以一蹴而就的方案。每一个都涉及复杂的工程权衡：HBF 需要解决软件如何处理有限写入耐久性和高延迟读取的问题；PNM 和 3D 堆叠需要新的软件分片策略和内存-逻辑接口标准；低延迟互联可能需要牺牲部分带宽。

论文鼓励将这些方向组合使用，因为它们在很大程度上是互补的。更高的内存带宽可以缩短每次 Decode 迭代的延迟，更大的单节点内存容量可以减少系统规模从而降低通信开销。

作为 RISC 架构的共同发明人、RAID 存储系统的开创者，Patterson 的职业生涯几乎就是"挑战现有范式"的代名词。40 多年前，他和 John Hennessy 提出的精简指令集思想曾被工业界视为异端，如今 99% 的新芯片都采用 RISC 架构。

Patterson 和马晓宇选择发表这篇论文的方式也很有意思，它不是一篇技术细节密集的顶会论文，而是发在 IEEE Computer 这本面向更广泛读者的杂志上，语气像是在发布一封公开信。值得注意的是，他们在致谢中提到了 Martin Abadi、Jeff Dean、Norm Jouppi、Amin Vahdat 和 Cliff Young，这串名字几乎覆盖了 Google AI 基础设施的核心架构师。

1.https://arxiv.org/pdf/2601.05047

2.https://techcrunch.com/2026/02/28/billion-dollar-infrastructure-deals-ai-boom-data-centers-openai-oracle-nvidia-microsoft-google-meta/?utm_source=chatgpt.com

运营/排版：何晨龙