推理需求暴增，SRAM 如何解决 GPU 不够用的问题？|gpu|sram|内存|固态硬盘|推理

来源：市场资讯

（来源：机器之心）

大模型产业过去两年消耗了大量算力，其大头一直在训练端。近期，计算资源需求的天平正在向推理倾斜，推理的算力需求快速赶超训练，而 GPU 架构在推理侧撞上了一个靠堆算力绕不过去的坎。数据搬得太远，速度跟不上。在一系列试图绕开这个瓶颈的尝试中，SRAM 正在成为跑在最前面的方向。

01. 推理的算力需求超过训练之后，芯片遇到了什么新问题？

GPU 在解码阶段撞上了哪一道内存墙？SRAM 重新进入推理芯片视野，解决的是哪类数据搬运问题？...

02.SRAM 如何解决 GPU 不够用的问题？

Groq、Cerebras 和 Fractile 三条路线分别怎么减少数据移动？...

03.解决内存墙后，算力需求还有哪些问题需要补足？

SRAM 的容量天花板和制程停滞会留下哪些短板？...

推理的算力需求超过训练之后，芯片遇到了什么新问题？

1、大模型进入规模化采用和常态化使用阶段后，AI 算力需求的重心开始向推理端转移。Agent、多轮对话和企业级应用把模型调用次数继续放大，推理阶段正在成为 AI 计算成本和基础设施扩张的主要压力来源。 [1-1] [1-2]

① SemiAnalysis 在 GTC 2026 报告中估算，数据中心推理市场规模约 500 亿美元，推理占 AI 算力总消耗比例已超过训练且仍在增长。Agent 场景下单次请求触发链式调用十几次模型，推理算力需求被乘数放大。

② CFA UK 在 2026 年初发表的分析文章从 AI 岗位需求增长、企业 AI 部署密度、推理单位经济成本三个维度评估，认为推理端算力消耗正在成为模型全生命周期主导部分。

2、推理端需求上升后，现有芯片架构遇到的核心瓶颈不是单纯算力峰值，而是解码阶段的数据搬运。这个瓶颈通常被称为「内存墙」（Memory Wall），模型生成每个 token 时都要反复读取权重和缓存，内存带宽与数据移动距离开始限制推理延迟。 [1-3]

① 模型推理主要包括预填充和解码两个环节。预填充一次性处理全部输入，矩阵乘矩阵，偏计算密集；解码逐个 token 串行生成，退化为矩阵乘向量，偏内存带宽密集。

② 解码阶段延迟中，实际计算不到 20%，超过 80% 消耗在内存数据的物理传输上。处理器计算性能近三十年提升约五万倍，内存带宽增长约一千倍。

3、围绕内存墙，近年芯片和系统研究开始把重点放到缩短数据移动距离上，SRAM 因片上存储、低延迟和低能耗重新受到关注。 [1-4] [1-5] [1-6] [1-7]

① 作为片上高速存储，SRAM 的作用是把模型权重放到更靠近计算核心的位置，减少权重和中间数据在外部内存与计算单元之间反复搬运。

② 以 2026 年的「Memory Wall is not gone」、2024 年的「Memory Is All You Need」和 NVIDIA 相关建模为代表的研究，都把解码阶段的瓶颈指向片上存储面积、能耗和内存带宽；即使计算已经被推到靠近存储的位置，SRAM 等片上存储系统仍会成为新的约束。

③ 在解码阶段，HBM4（High Bandwidth Memory 4）带宽约 22 TB/s，片上 SRAM 带宽达 150 TB/s，差距约 7 倍，来自 HBM 位于芯片外部、SRAM 集成在计算核心附近的物理位置差异。能耗方面，HBM 约 20 pJ/bit，SRAM 仅 0.03-0.6 pJ/bit。

SRAM 如何解决 GPU 不够用的问题？

1、SRAM（Static Random-Access Memory，静态随机存取存储器）从 1960 年代进入计算机系统，长期用于高速暂存、缓存和片上缓冲。进入大模型推理阶段后，解码环节反复读取权重和缓存，SRAM 的低延迟、片上集成和高带宽特性重新成为缓解内存墙的硬件选择。 [1-14] [1-8] [1-9]

① Computer History Museum 记载，Robert Norman 早在 1963 年就在 Fairchild 提出半导体静态 RAM 设计；1960 年代后期，bipolar RAM 开始用于高速 scratchpad 和 cache memory。

② Intel 于 1969 年推出的首款产品 3101 是 SRAM 芯片，用于替代磁芯存储模块；今天 SRAM 仍主要用于 CPU cache、片上存储和小型高速缓冲。

2、以缓解内存墙为目标，基于 SRAM 的工程实践大致可以概括为三条路线：从编译器层重排数据流、从晶圆层扩大片上存储规模、从晶体管层推进存算融合。三条路线都在缩短数据移动距离，但工程难度、成熟度和适用场景不同。...

关注「机器之心PRO会员」，前往「收件箱」查看完整解读