点击参与:

打开网易新闻 查看精彩图片

来源:第一财经 作者:冯丽君

大模型的爆发带来了海量算力需求,而在后摩尔时代,先进制程逼近物理极限,存算一体有望成为未来重要技术路线之一。

存算一体,即数据存储与计算融合为一体,极其适用于大数据量、大规模并行的应用场景。存算一体最显著的特征是能够克服存储墙和能耗墙等问题,不仅能够解决当前工艺制程面临的挑战,还能够为算力开辟第二增长曲线。

存算一体架构的性能优势和成本优势体现在哪些方面?目前大规模商用面临哪些挑战?存算一体架构芯片会成为国内芯片产业弯道超车的一种可能吗?第一财经近日就上述话题与亿铸科技创始人、董事长兼CEO熊大鹏博士进行交流。

存算一体有效消除三大难题

在传统冯诺依曼架构下,计算和存储功能分别由计算单元(CPU、GPU等XPU)和存储单元完成。数据从存储器中获取,处理完毕后再回到存储器,从处理单元外的存储器搬运和读取数据所需的时间往往是运算时间的数倍,导致计算效率或有效算力的下降。

大模型盛行的今天,为了完成训练和推理任务所需要搬运和执行的模型参数量巨大,由此产生的时间消耗甚至达到了整个计算周期的80%以上,且随着参数量增加,部分情况下占比更高。其中主要的原因是计算芯片内及计算芯片和存储芯片间数据传输的带宽限制了实际有效性能,正因如此,芯片的实际性能往往远远低于芯片的理论性能,这就是所谓的“存储墙”,熊大鹏博士表示。伴随着“存储墙问题”问题同时出现的大量的能耗消耗在了传输过程中,导致芯片的能效比显著降低,即“能耗墙”问题。

熊大鹏博士还告诉第一财经,除了“存储墙问题”,还有“编译墙”问题——即动态数据流调度复杂,编译器无法在静态、可预测情况下自动优化算子和可执行程序来实现数据流优化,需要依赖手动调优等来达到较高的有效算力,加大了实际部署和迁移的时间和人力成本。“这三点都极大限制了资源日益紧缺、算力需求大幅增长的AI产业的发展。”

存算一体架构则打破了冯诺依曼架构的思维定式,将存储与计算功能融合为一体,直接利用存储单元进行数据处理——通过修改“读”电路的存内计算架构,可以在“读”电路中获取运算结果,并将结果直接“写”回存储器的目的地址,不再需要在计算单元和存储单元之间进行频繁的数据转移,消除了数据搬移和读取带来的带宽瓶颈和能耗,极大降低了功耗,大幅提升了计算效率。

“存算一体有望成为后摩尔时代的重要技术路线之一。从有效算力的第一性原理来看,存算一体架构下数据搬运量大幅下降,有效算力天花板极大提升。可以说存算一体将打破摩尔定律,开启算力第二增长曲线。同时,相信存算一体在未来计算领域的变革性潜力,特别是在AI时代,这种技术将会成为推动算力增长的关键因素。”熊大鹏博士称。

能效比与性价比更优的解决方案

与近期爆火的高带宽存储芯片HBM相比,存算一体的系统能效比和性价比更优。

众所周知,HBM是一种高性能的内存接口技术,主要用于提升GPU和高性能计算(HPC)系统的有效数据处理能力。这种技术通过垂直堆叠DRAM芯片,并使用高速互联将它们与处理器紧密连接,从而大幅增加带宽。

“HBM是解决‘存储墙’问题的有效技术路线,但需要付出成本和功耗的代价,因为提供大带宽需要更高功耗;价格也非常贵,远远超过传统DRAM的价格。”熊大鹏博士对第一财经表示。

“本质上来说,HBM是一个存储芯片,并不具备计算功能,需要搭配GPGPU等计算芯片才能够实现计算功能。”从系统成本上看,存算一体架构比传统GPGPU加HBM的组合更有优势。

一方面缘于存算一体架构的算力密度或PPA更高,“存算一体架构的等效数据带宽折算下来远远超过HBM,可能是几倍甚至十倍以上的差距,同时其算力密度更具优势,实际有效算力、性价比、能效比都会远高于GPGPU+HBM方案。”熊大鹏博士表示。

另一方面,存算一体技术对先进工艺的依赖相对较低。“GPGPU和HBM都严重依赖先进制程,而采用存算一体技架构,即使不采用先进制程,也能够达到等效或更高的算力水平。

可以说,为大模型提供更具能效比和性价比的解决方案,不仅是AI产业的发展需要,也是存算一体架构的优势之一,存算一体天然适适合AI产业的发展趋势。

未来2-3年内在大模型领域大规模落地

全球范围内对存算一体技术的研究和应用正在加速推进。

目前,海外采用存算一体路线的大算力芯片企业包括初创企业Groq,估值超过28亿美元,是英伟达的强劲对手;d-Matrix则受到微软、淡马锡、三星、Marvell、海力士、爱立信等多家企业投资。

“据我所知,大多数海外企业是基于SRAM来实现存算一体,但SRAM的容量较低、成本较高。比如Groq的完整解决方案大概需要570多颗芯片,如果采用英伟达H100所需要的芯片数量仅在个位数。这就造成其单芯片成本不高,但整体方案成本和能耗有可能超过英伟达。”

此外,三星也已在Nature上发表了基于MRAM的存内计算研究,并展示其AI算法的高准确率。SK海力士则推出了基于GDDR接口的DRAM存内计算产品,大幅提升了计算速度和降低了功耗。但是熊大鹏博士也坦言,“中美之间,存算一体技术基本上处于同一水平。”

国内也有不少新兴企业在存算一体技术上取得了突破,显示出存算一体在国内的应用潜力,例如亿铸科技存算一体大算力AI工程验证芯片以及存算一体超异构解决方案都展现出了不错的前景。

为此,亿铸科技自成立以来始终坚持基于新型存储的存算一体芯片的研发,积累了大量的技术和专利。

据了解,此前基于纯模拟的存算一体芯片在应用于大模型计算时面临诸多挑战:一是精度不可信的问题;二是基于模拟计算,数模模数转换带来了能耗、die size和性能的瓶颈。为了解决这一问题,亿铸研发出全数字化路径。“这也是亿铸科技做AI大算力推理芯片的依据。”熊大鹏博士表示。

在一般模拟的存算一体系统中,数据以模拟信号的方式存储,以存储单元内不同的电压电平来表示,基于欧姆定律和基尔霍夫定律(Kirchhoff’s Laws)执行MAC等运算。这种方案的最大问题在于精度及其精度的不可信,模拟电路噪声和各种变量是其中原因。不管是制造工艺还是工作环境,都会让存储器代表的数值有误差或漂移。数模混合方法尝试平衡效率和精度问题,但依旧不能保证高精度及其精度可信度。

此外,存算一体的发展还面临着工程落地问题。“作为新技术路线,如何利用现有生态和融入现有生态,是一个很大的挑战。可编程性和现有生态的兼容性至关重要”熊大鹏博士对第一财经表示。

综合来看,随着大模型参数规模越来越大,伴随而来的能耗和能效问题将会愈加突出,如何为大模型提供更具能效比的大算力AI芯片,解决高算力需求和高能耗成本的矛盾,将是AI产业发展的关键问题,而存算一体架构将是有效手段之一。熊大鹏博士相信,未来几年,随着技术的不断成熟和市场需求的增加,存算一体芯片有望在多个领域得到广泛应用,并推动整个产业的创新发展。预计在未来2-3年内,存算一体架构将在大模型领域实现大规模落地!

知芯片事、答天下问

辛苦点点“在看