1990年,Hennessy和Patterson在《计算机体系结构:量化方法》里画了一张图。他们早就看出内存会成为处理器的瓶颈——容量和速度两头堵。三十五年过去,这张图非但没过时,反而成了预言。
当时硬件架构师们想了个办法:用SRAM做缓存,背后接更大的片外DRAM。内存看起来变大了,速度却慢了几个数量级。这就是"内存墙"(memory wall)的由来——一堵越砌越高的墙,把算力和数据隔开。
SRAM的问题在于它不缩了。先进制程里,逻辑晶体管密度翻倍,SRAM单元却原地踏步。每代新工艺,同样容量的SRAM要占更多芯片面积。当芯片逼近光罩极限(reticle limit),设计师被迫把更多数据赶到片外,而那片外内存慢得像是另一个时代。
AI时代让这事彻底暴露。大模型的访存模式和传统计算完全不同——不是顺序读,是随机爆冲。训练时参数权重塞不进片上缓存,推理时KV-Cache像气球一样膨胀。SRAM不够快,AI芯片就只能干等;SRAM不够大,HBM再宽也喂不饱计算单元。
台积电在2nm节点上押注纳米片(nanosheet)晶体管,声称SRAM密度有改善。但公开数据稀缺,历史经验也不乐观——过去宣传的数字,量产时往往要打折扣。即便按台积电给出的曲线,SRAM的缩放效率仍远落后于逻辑部分。
行业不是没有尝试过替代方案。存算一体、近存计算、HBM堆叠、CXL扩展……每条路都在试图绕过这堵墙。但SRAM的位置太核心了——它握着指令和数据,是处理器能直接对话的唯一内存。换掉它,等于重写整个计算范式。
「性能不是被计算限制的,」Eliyan的工程师说,「是被内存访问限制的。」这话放在1990年是对的,放在2025年依然成立。区别只是墙更高了,翻墙的代价更贵了。
芯片设计师现在面临一个残酷算术:继续堆SRAM,面积和成本爆炸;砍掉SRAM,性能断崖下跌。中间地带越来越窄。当3nm、2nm的流片费用以亿美元计时,这个选择题没有容错空间。
下一代AI芯片的规格书里,算力数字会继续攀升。但真正决定用户体验的,可能是那个很少被提及的指标——片上SRAM容量,以及它能不能撑到数据被用完之前。
如果2nm的SRAM缩放再次不及预期,行业会集体转向片外方案吗?还是会有人押注全新的存储介质,把三十五年前的预言彻底推翻?
热门跟贴