他山石智库多年积累诸多顶级专家资源,精选推荐国内外人工智能领域重量级专家,2026年3月中旬皮埃罗教授和互联网思想家KK(凯文·凯利)、诺奖得主迈克尔莱维特即将访华,已开放合作邀约。如有出席活动、大会发言、企业探访等需求,请联系他山石智库。
近日,2017 年图灵奖得主、“RISC 之父” David Patterson 与 Google DeepMind 高级工程师马晓宇,在 IEEE Computer 联合发布论文《关于大语言模型推理硬件的挑战与研究方向》,直接向当前 AI 芯片设计范式 “开炮”,核心观点直指:AI 推理根本不需要更强的 GPU,现有 “算力堆砌、带宽优先” 的硬件思路,与 LLM 推理需求严重错配,走错了方向。
作为奠定现代处理器架构的先驱,Patterson 用一组尖锐数据戳破了硬件失衡的真相:2012-2022 年,NVIDIA GPU 的 64 位浮点算力提升了 80 倍,但内存带宽仅增长 17 倍,算力与带宽的差距持续扩大;更棘手的是,作为 AI 芯片核心的高带宽内存(HBM),2023-2025 年单位容量成本与单位带宽成本双双上涨约 35%,而传统 DRAM 成本同期下降近一半 ——HBM 的堆叠封装工艺导致良率受限,成本居高不下,与 GPU 算力的增长完全脱节。
更关键的是,延迟瓶颈彻底颠覆了传统硬件设计逻辑。过去数据中心推理多在单芯片完成,只需优先优化带宽;但大语言模型的推理必须依赖多芯片分片运行,且 Decode 阶段以小 batch size 为主,频繁、小消息的跨芯片通信成为常态。这种 “小消息、高频次、大网络” 的场景,延迟远比带宽更重要,而行业主流的 “带宽优先” 互联设计,反而成了性能枷锁。
针对 “内存墙” 与 “延迟墙” 两大困局,论文提出了四条极具颠覆性的硬件创新路径:
- 近内存计算(HBF):在 HBM 的 base die 上集成计算逻辑,既保留相近带宽,又能降低 2-3 倍功耗,解决内存与算力的能效错配;
- 定制化 3D 堆叠:通过更先进封装技术打造超宽接口,实现超越 HBM 的带宽与效率,需攻克散热难题与接口标准化难题;
- 低延迟互联重构:采用树形、蜻蜓、高维 Torus 等高连通性拓扑减少跳数,引入交换机内处理(PNM)加速 LLM 通信原语,优化芯片存储与计算布局,甚至通过本地备用节点、近似结果替代等方式降低通信等待延迟;
- 通信可靠性优化:适配 LLM 推理对完美通信的低要求,用本地备用、近似结果替代超时消息,减少故障迁移与等待开销。
Patterson 还罕见地批评了计算机架构领域的 “产学脱节”:1976 年顶会 40% 论文来自工业界,2025 年已跌破 4%。他呼吁学界聚焦 LLM 推理这一 “诱人目标”,用 Roofline 模型搭建性能模拟器,结合 TCO、功耗、碳排放等实用指标,为硬件创新提供更贴合工程落地的评估框架。
从产业现实来看,AI 热潮已引发全球内存供应危机:HBM 产能挤占传统 DRAM 晶圆,2026 年 DRAM 价格大幅上涨,消费级内存短缺问题持续,三星、SK Hynix 等厂商纷纷转向 HBM 生产线,进一步加剧供需失衡。Patterson 提出的新路线,不仅是技术突破,更是产业寻找 “Plan B”、缓解供应链压力的现实选择。
论文也坦诚,这些新方案无法一蹴而就:HBF 需解决写入耐久性与读取延迟的矛盾,3D 堆叠与 PNM 需要新的软件分片策略与接口标准,低延迟互联可能牺牲部分带宽。但 Patterson 强调,多条路径互补组合才是破局关键 —— 更高内存带宽缩短 Decode 延迟,更大单节点内存减少系统通信开销,最终实现推理性能与能效的双重提升。
作为 RISC 架构的共同发明人、颠覆传统指令集的 “范式挑战者”,Patterson 再次以 “公开信” 式的论文发出预警。不同于顶会论文的技术细节堆砌,这篇发表于大众期刊的研究,背后还有 Google AI 核心基础设施团队的支持,无疑将为 AI 芯片行业敲响警钟 ——未来的 AI 推理硬件,不再是 “算力越强越好”,而是要围绕 “低延迟、高适配、低功耗” 重新定义。
大会发言/企业内训/代言背书 欢迎联系
他山石智库 2015 年来商业合作数百位诺贝尔奖得主、图灵奖得主、两院院士、藤校牛剑院长教授、世界500强领导者、联合国高层及 openai 创始人等人工智能科学家、经济学家、企业家及《未来简史》作者赫拉利;世界首富马斯克母亲梅耶·马斯克等。为北京、上海、杭州、广州、深圳政府举办的国际化论坛、峰会提供演讲嘉宾;为阿里、腾讯、字节、百度等公司大会提供演讲嘉宾,并运营诺贝尔奖专家领衔的品牌代言背书和海外传播。他山石智库还桥等名校留学。创始团队来自国务院发展研究中心、财新、清华、麻省理工。
热门跟贴