来源:市场资讯
(来源:机器之心)
大模型产业过去两年消耗了大量算力,其大头一直在训练端。近期,计算资源需求的天平正在向推理倾斜,推理的算力需求快速赶超训练,而 GPU 架构在推理侧撞上了一个靠堆算力绕不过去的坎。数据搬得太远,速度跟不上。在一系列试图绕开这个瓶颈的尝试中,SRAM 正在成为跑在最前面的方向。
目录
01. 推理的算力需求超过训练之后,芯片遇到了什么新问题?
GPU 在解码阶段撞上了哪一道内存墙?SRAM 重新进入推理芯片视野,解决的是哪类数据搬运问题?...
02.SRAM 如何解决 GPU 不够用的问题?
Groq、Cerebras 和 Fractile 三条路线分别怎么减少数据移动?...
03.解决内存墙后,算力需求还有哪些问题需要补足?
SRAM 的容量天花板和制程停滞会留下哪些短板?...
推理的算力需求超过训练之后,芯片遇到了什么新问题?
1、大模型进入规模化采用和常态化使用阶段后,AI 算力需求的重心开始向推理端转移。Agent、多轮对话和企业级应用把模型调用次数继续放大,推理阶段正在成为 AI 计算成本和基础设施扩张的主要压力来源。 [1-1] [1-2]
① SemiAnalysis 在 GTC 2026 报告中估算,数据中心推理市场规模约 500 亿美元,推理占 AI 算力总消耗比例已超过训练且仍在增长。Agent 场景下单次请求触发链式调用十几次模型,推理算力需求被乘数放大。
② CFA UK 在 2026 年初发表的分析文章从 AI 岗位需求增长、企业 AI 部署密度、推理单位经济成本三个维度评估,认为推理端算力消耗正在成为模型全生命周期主导部分。
2、推理端需求上升后,现有芯片架构遇到的核心瓶颈不是单纯算力峰值,而是解码阶段的数据搬运。这个瓶颈通常被称为「内存墙」(Memory Wall),模型生成每个 token 时都要反复读取权重和缓存,内存带宽与数据移动距离开始限制推理延迟。 [1-3]
① 模型推理主要包括预填充和解码两个环节。预填充一次性处理全部输入,矩阵乘矩阵,偏计算密集;解码逐个 token 串行生成,退化为矩阵乘向量,偏内存带宽密集。
② 解码阶段延迟中,实际计算不到 20%,超过 80% 消耗在内存数据的物理传输上。处理器计算性能近三十年提升约五万倍,内存带宽增长约一千倍。
3、围绕内存墙,近年芯片和系统研究开始把重点放到缩短数据移动距离上,SRAM 因片上存储、低延迟和低能耗重新受到关注。 [1-4] [1-5] [1-6] [1-7]
① 作为片上高速存储,SRAM 的作用是把模型权重放到更靠近计算核心的位置,减少权重和中间数据在外部内存与计算单元之间反复搬运。
② 以 2026 年的 「Memory Wall is not gone」、2024 年的 「Memory Is All You Need」和 NVIDIA 相关建模为代表的研究,都把解码阶段的瓶颈指向片上存储面积、能耗和内存带宽;即使计算已经被推到靠近存储的位置,SRAM 等片上存储系统仍会成为新的约束。
③ 在解码阶段,HBM4(High Bandwidth Memory 4) 带宽约 22 TB/s,片上 SRAM 带宽达 150 TB/s,差距约 7 倍,来自 HBM 位于芯片外部、SRAM 集成在计算核心附近的物理位置差异。能耗方面,HBM 约 20 pJ/bit,SRAM 仅 0.03-0.6 pJ/bit。
SRAM 如何解决 GPU 不够用的问题?
1、SRAM(Static Random-Access Memory,静态随机存取存储器)从 1960 年代进入计算机系统,长期用于高速暂存、缓存和片上缓冲。进入大模型推理阶段后,解码环节反复读取权重和缓存,SRAM 的低延迟、片上集成和高带宽特性重新成为缓解内存墙的硬件选择。 [1-14] [1-8] [1-9]
① Computer History Museum 记载,Robert Norman 早在 1963 年就在 Fairchild 提出半导体静态 RAM 设计;1960 年代后期,bipolar RAM 开始用于高速 scratchpad 和 cache memory。
② Intel 于 1969 年推出的首款产品 3101 是 SRAM 芯片,用于替代磁芯存储模块;今天 SRAM 仍主要用于 CPU cache、片上存储和小型高速缓冲。
2、以缓解内存墙为目标,基于 SRAM 的工程实践大致可以概括为三条路线:从编译器层重排数据流、从晶圆层扩大片上存储规模、从晶体管层推进存算融合。三条路线都在缩短数据移动距离,但工程难度、成熟度和适用场景不同。...
关注「机器之心PRO会员」,前往「收件箱」查看完整解读
热门跟贴