大模型下沉，汽车需要存算一体芯片｜超级观点|cuda|sram|低功耗|大模型|英伟达

大模型“百模大战”初见分晓，AIGC应用也如雨后春笋般出现，一个新的AI世界正在来临。

大模型对算力的需求极大。Open AI曾预估，其算力需求每3.5个月翻一倍,每年近10倍增长。而根据中国信通院等机构的调研数据，仅ChatGPT的单日运营算力消耗就已占2021年整个中国智能算力总规模的3%。

除了基础大模型，企业也在训练自己的企业模型，且训练需求越来越大。应用生态逐渐成熟，大模型推理的算力需求上涨，算力增长速度与算力供给速度会出现极大不平衡。

IDC数据预测，到2026年，中国在人工智能硬件市场的IT投资将超过150亿美元。而AMD CEO苏姿丰在发布会上也表示，到2027年，仅数据中心AI加速器市场规模将达4000亿美元。

纵观整个AI发展过程，过去算力需求是以倍数增加的，如今算力增加呈指数级别，如果按照这个速度增长，未来大模型对算力的需求增长速度，将远远超过半导体增长曲线。

庞大的算力需求也会带来极大的电力消耗。后摩智能联合创始人项之初认为：“按照现在生成式AI的快速发展，2027年预计英伟达大概需要提供150万台服务器，每年消耗的电量接近一个瑞典或荷兰、阿根廷体量国家一年的耗电量。在AGI初步实现的阶段，大概需要43个美国全年的耗电量，这是地球无法承受的。”

图片来源：后摩智能联合创始人项之初于WISE2023商业之王大会分享

然而，在传统的冯诺依曼架构下，存储和运算是分离的，芯片大概有80%-90%的功耗浪费在数据的存储和计算之间的搬运，而非计算上。

此外，当大模型逐渐向智能汽车、电脑、手机等边缘端下沉，行业需要能运行大模型的算力芯片。

无论是智能汽车，还是电脑或手机，都对功耗较为敏感。车无法像数据中心一样，通过增加空调、或液冷系统降温度；手机、电脑也会因功耗过高，变得发烫。

从数据安全角度考虑，当AI Agent软件不断发展，大模型需要掌握用户的个人数据训练出符合用户心意的大模型，这就涉及到数据安全问题。用户需要将数据留在本地存储和运算。

存算一体芯片能很好地满足上述需求。

存算一体芯片的计算可以直接在存储器上进行，以新的运算架构进行二维和三维矩阵乘法/加法运算，可以极大幅度消除数据搬移带来的数据传输缓慢、功耗高、搬运能耗大等问题。

此外，由于数据存储在本地，计算直接在存储中进行，它能将用户数据留在本地，保证数据安全。且计算速度远快于在云端计算后再传回本地，能即时性满足用户的需求。

后摩智能研究存算一体芯片多年，创始团队有着车规芯片和AI芯片研发经验，对车端场景和AI都有着较深刻的了解，公司也选择将芯片落地在汽车场景。后摩智能还透露，公司刚刚完成新一款技术验证芯片的量产测试，属于国内首款基于存算一体架构的7nm车规级技术验证芯片，专为Transformer等车端大模型设计。该芯片可支持多种高精度数据类型，且计算效率大幅提升，在实际测试条件下，相较于全球主流的存算一体产品，存算模块能效提升了5倍以上。

当大模型席卷万物，我们很好奇存算一体芯片在大模型时代能发挥的作用，也希望了解车厂对算力芯片的新需求。

我们邀请了后摩智能联合创始人项之初共同讨论这个话题。

以下为经编辑全文：

一、大模型带来巨量算力需求

36氪：以OpenAI为代表的大模型和生成式AI正向端侧发展，这会给算力芯片带来什么新痛点？

项之初：大家最关注的是芯片的PPA——performance、power，和Area，也就是性能、功耗和尺寸。在大模型时代下，功耗和存储墙的问题会变得更加凸显。

大模型对算力的需求变得更大了。算力变大，意味着功耗会变大。如果说每T算力会带来1瓦的功耗，功耗减少变成0.5瓦，甚至0.25瓦，看起来没有解决多大的问题，但当算力不断攀升，变成1000T、2000T，那功耗能变成1000瓦、500瓦，效果就很明显。边缘侧不像数据中心，能通过空调或液冷系统降温，功耗太高会直接影响边缘侧部署大模型。

二是访存问题，芯片设计算力有很大提升，对应的存储也需要有很大提升。如果存储不提高，只提升处理器的算力是没有用的，因为数据进不来。

所以，在大模型带来的大算力时代下，功耗和存储墙的问题都更加凸显。

36氪：与冯诺依曼架构的芯片相比，存算一体芯片有什么优势？与量子计算、光芯片相比又有何不同？

项之初：与传统芯片相比，存算一体芯片的优势，一是上限高，二就是底线稳。

上限高是说计算性能好，功耗更低，成本也更好。基于存算一体架构，计算可以直接在存储上进行，数据不用反复搬运，计算密度得到了提升。所以在单位计算面积，反而可以比原来的传统架构更小。由于无需数据搬运，也能降低功耗。

第二个是底线会更稳，在今天国际大环境下，先进制程芯片流片可能受到限制。而存算一体用28nm制程可以做出传统架构7nm的效果，这是供应链的一个重要保障。

和量子计算、光计算这些更前沿的芯片相比，它的优势是现在就可以商业量产，现在就可以跑边缘大模型。

图片来源：后摩智能联合创始人项之初于WISE2023商业之王大会分享

36氪：在存算一体技术上，国内外有什么研发进度的差异？
项之初：我觉得国内外在一个水平线上，在存算一体上我们并不落后，甚至还有优势。今年我们去日本参加学术会议，对于H30已经做到256T@Int 8算力这件事，他们是非常惊讶的。特斯拉目前也只是做了近存计算，没有做到存内计算。在存内这件事上，我们是领先的。

二、存算一体芯片具有算力大、功耗低优势

36氪：存算一体技术，更擅长解决什么样场景和问题？
项之初：从技术底层的架构看，它更适合Transformer类的算法，处理大量的矩阵相乘。存算单元可以将模型权重存储在里面，将摄像头、雷达等传感器数据直接load到芯片里，无需读取，直接完成计算。当然，在小算力、低功耗场景，存算一体芯片也具有优势。

36氪：在存算一体架构下，算力会有上限吗？

项之初：芯片算力都要受限于晶圆大小。但存算一体的单位算力成本可以做的比传统架构更低，是更有优势的。其次存算一体解决了访存问题，它的算力实际利用率也会更高。而且我们能够实现在功耗相同的情况下，实现几倍于传统架构的性能。

36氪：经过多年发展，存算一体技术已经有了较大发展和进步，您认为目前存算一体技术的成熟度如何？

项之初：存算一体技术还没有到最成熟、最好的时候。它还一直在迭代，不过已经完全满足商业量产需求了。

我们第一代H30芯片出来后，有很多人不相信我们可以做到256 tops算力，且功耗只有35瓦，测试之后发现我们真得做到了这个效果。在客户看来，我们编译器/工具链上手易用性非常好，即使和传统架构的芯片相比。

三、大模型从云端走向车端

36氪：随着大模型需求增加，哪些场景对存算一体芯片有需求？

项之初：云端肯定有需求，大模型训练需要超算中心，需要将许多高性能的计算单元连接起来，且通过液冷系统等处理他们的散热。

但云端的训练想要突破英伟达及CUDA生态难度很大，我们选择了车端，从推理场景切入。车端无法部署过多的芯片，且相对于云端有更迫切的成本限制，如何用量化的方式，用更高效的芯片解决这个问题，存算一体芯片会具有竞争力。

36氪：国内的存算一体公司都找到了各自的落脚点，有的选择了边缘侧，有的选择了数据中心大算力芯片场景。为什么后摩智能选择了车端等边缘端场景？

项之初：最初数据中心、车、安防和物联网等场景我们都看了，我们内部开了一个战略会，思考到底选择什么场景，把核心力量投向哪里。

分析一圈，我们觉得云端场景，对于英伟达的CUDA生态依赖太强，这对于初创公司直接去构建自己生态，相对较难。安防场景已经没有太大的成长空间，市场机会小。物联网则是过于分散，投入和收益不匹配。而车这个场景，我们预测它到2026/2027年左右，在体量上和数据中心差不太多。且汽车市场的集中度适中，同时还有强烈的差异化供给需求，看中产品性能和性价比，是一个值得发展的场景。

做一个跟大家同质的东西会比较危险，还是要更有差异化才能活下来。当然，这也取决于团队基因，我们创始团队做过车规大芯片，也做过GPU芯片，有AI基因。如今大模型和AI在车端需求越来越大，这也证明我们当初的判断是对的。

36氪：后摩智能今年发布了存算一体智驾芯片——后摩鸿途®H30，对于车企而言，基于存算一体架构的芯片，与智能驾驶芯片相比，H30具有什么亮点？

项之初：我们的优势主要在于，更高的算力，可利用的性能，更低的功耗和成本。

我们今年5月份发布了第一颗芯片产品叫后摩鸿途®H30，这是一颗256 tops物理算力的芯片，只有35瓦功耗，而且只用了12nm工艺。在制程还落后了一代的情况下，做到了跟国际友商比2-3倍提升的性能，并且功耗只有它的1/2。如果不做一个底层的架构的创新，是不可能有这样的实际测试结果的。

后摩鸿途®H30 图片来源：后摩智能联合创始人项之初于WISE2023商业之王大会分享

我们的第二代芯片更值得市场期待，今年我们做了一个7nm的车规级验证样片，专为Transformer等车端大模型做了优化设计，11月已经通过了一个量产测试，良率、性能以及功耗的表现都有超出预期。相较于全球主流的存算一体产品，在存算模块我们有了五倍以上的能效提升。

36氪：大模型下沉边缘端是一个新趋势，车厂会对芯片提出哪些新的要求？

项之初：智能驾驶今年的火热程度，大家有目共睹。车厂对于智能化配置也开始逐渐从“有没有”转换到“好不好用”，所以性能是他们考量的首要因素，编译器上手快，算力利用率高，其次车厂对芯片主要诉求还有成本，要让他们买得起，车端很难像云端一样，花几十万购买芯片。

最后，车对功耗很敏感，要将芯片的功耗压到车所能接受的程度。我们目前就在和国内某头部车厂合作，将基于Transformer大模型的demo，跑在我们的芯片上。

36氪：什么类型的大模型会更适合用于车这个场景？

项之初：现在看来Transformer很适合。车端原来更多是用CNN图像类模型，特斯拉引入了Transformer，Transformer的自注意力机制可以帮助GPT了解上下文的含义，也能让智能驾驶有了“上下文”，更好的做规划决策。另外车内座舱的一语音交互已经开始引入GPT，从这个角度看，Transformer可能会是更长时间维度里的赢家。

四、落地车厂，用起来最重要

36氪：存储介质的选择一直是存算一体行业的重要问题，站在现在这个时间节点，您怎样看待后摩智能所选择的介质？

项之初：非常好。成熟的存储介质其实就是Flash，SRAM和DRAM等。大家可能用得比较多的是Nor Flash和SRAM。Nor Flash受限于写的速度和可擦写次数，不能用于高频擦写场景，更适合用于固定模型的小端侧场景。对SRAM来说，对功耗敏感的大算力场景非常合适，缺点是它的密度会比Nor Flash要低。目前来说SRAM是唯一可量产的自动驾驶芯片存储介质，我们实际上也没有什么选择。

对于先进存储ReRAM和MRAM等，我的观点是先有产品出来，再讨论好用不好用。我们去年也做了ReRAM的流片，在实验室和SRAM比较了一下，可擦写次数上ReRAM差了2-3个数量级。这个拿来商用，我们觉得还不到做大芯片的时机，还没成熟。

36氪：对于芯片而言，要想用起来，还需要完善的软件生态。后摩智能在软件生态上有何思考？

项之初：要想让芯片用起来，最主要的是编译器、工具链的工作，我们在芯片点亮后，做了大量的编译器和工具链的优化工作。像车厂这样的客户，试用机会只有一次，如果第一次测试产品的时候不好用，后面就很难有敲门的机会了。

我们一定要做到自己心里有底，才敢给客户送样。只有客户的产品能在芯片上用起来，才会去讨论芯片的算力、功耗等性能。

我们一直在强调把编译器和工具链做好，让客户在上面用起来，而且只有经过用户侧的反复敲打，工具链和编译器才能越来越好，得到客户的反馈后及时迭代新版本。

36氪：为了更好发挥算力的作用，后摩智能在架构等层面做了哪些努力？

项之初：我们用CIM解决了矩阵乘加的暴力计算问题，在此之外，我们还设计了一些更通用的单元，比如去做向量的乘法和非线性计算。同时，在这些之外，我们预留了通用计算单元来支持尚未出现的算法。芯片从设计到生产是有2-3年周期的，算法迭代却很快，我们要在设计的时候就考虑到这一点。

36氪：大模型会不断提出新的算子需求，对此后摩智能会有什么产品计划吗？

项之初：我们新一代产品H50就重点考虑了车端大模型。一是在底层算力单元上，通过技术迭代，增加效率。二是我们对Transformer等算法做了进一步的优化。

我们的验证产品已经流片回来了，测试结果很令人兴奋，相较于上一代芯片，它各方面都有提升。我们采用了7nm的制程，是国内首款采用7nm制程的存算一体芯片。

此外，公司在算力上覆盖了更多的产品组合，希望能满足车企不同产品的的需求。

36氪：存算一体芯片在产业大规模应用，会遇到什么问题？