大模型“百模大战”初见分晓,AIGC应用也如雨后春笋般出现,一个新的AI世界正在来临。

大模型对算力的需求极大。Open AI曾预估,其算力需求每3.5个月翻一倍,每年近10倍增长。而根据中国信通院等机构的调研数据,仅ChatGPT的单日运营算力消耗就已占2021年整个中国智能算力总规模的3%。

除了基础大模型,企业也在训练自己的企业模型,且训练需求越来越大。应用生态逐渐成熟,大模型推理的算力需求上涨,算力增长速度与算力供给速度会出现极大不平衡。

IDC数据预测,到2026年,中国在人工智能硬件市场的IT投资将超过150亿美元。而AMD CEO苏姿丰在发布会上也表示,到2027年,仅数据中心AI加速器市场规模将达4000亿美元。

纵观整个AI发展过程,过去算力需求是以倍数增加的,如今算力增加呈指数级别,如果按照这个速度增长,未来大模型对算力的需求增长速度,将远远超过半导体增长曲线。

庞大的算力需求也会带来极大的电力消耗。后摩智能联合创始人项之初认为:“按照现在生成式AI的快速发展,2027年预计英伟达大概需要提供150万台服务器,每年消耗的电量接近一个瑞典或荷兰、阿根廷体量国家一年的耗电量。在AGI初步实现的阶段,大概需要43个美国全年的耗电量,这是地球无法承受的。”

打开网易新闻 查看精彩图片

图片来源:后摩智能联合创始人项之初于WISE2023商业之王大会分享

然而,在传统的冯诺依曼架构下,存储和运算是分离的,芯片大概有80%-90%的功耗浪费在数据的存储和计算之间的搬运,而非计算上。

此外,当大模型逐渐向智能汽车、电脑、手机等边缘端下沉,行业需要能运行大模型的算力芯片。

无论是智能汽车,还是电脑或手机,都对功耗较为敏感。车无法像数据中心一样,通过增加空调、或液冷系统降温度;手机、电脑也会因功耗过高,变得发烫。

从数据安全角度考虑,当AI Agent软件不断发展,大模型需要掌握用户的个人数据训练出符合用户心意的大模型,这就涉及到数据安全问题。用户需要将数据留在本地存储和运算。

存算一体芯片能很好地满足上述需求。

存算一体芯片的计算可以直接在存储器上进行,以新的运算架构进行二维和三维矩阵乘法/加法运算,可以极大幅度消除数据搬移带来的数据传输缓慢、功耗高、搬运能耗大等问题。

此外,由于数据存储在本地,计算直接在存储中进行,它能将用户数据留在本地,保证数据安全。且计算速度远快于在云端计算后再传回本地,能即时性满足用户的需求。

后摩智能研究存算一体芯片多年,创始团队有着车规芯片和AI芯片研发经验,对车端场景和AI都有着较深刻的了解,公司也选择将芯片落地在汽车场景。后摩智能还透露,公司刚刚完成新一款技术验证芯片的量产测试,属于国内首款基于存算一体架构的7nm车规级技术验证芯片,专为Transformer等车端大模型设计。该芯片可支持多种高精度数据类型,且计算效率大幅提升,在实际测试条件下,相较于全球主流的存算一体产品,存算模块能效提升了5倍以上。

当大模型席卷万物,我们很好奇存算一体芯片在大模型时代能发挥的作用,也希望了解车厂对算力芯片的新需求。

我们邀请了后摩智能联合创始人项之初共同讨论这个话题。

以下为经编辑全文:

一、大模型带来巨量算力需求

36氪:以OpenAI为代表的大模型和生成式AI正向端侧发展,这会给算力芯片带来什么新痛点?

项之初:大家最关注的是芯片的PPA——performance、power,和Area,也就是性能、功耗和尺寸。在大模型时代下,功耗和存储墙的问题会变得更加凸显。

大模型对算力的需求变得更大了。算力变大,意味着功耗会变大。如果说每T算力会带来1瓦的功耗,功耗减少变成0.5瓦,甚至0.25瓦,看起来没有解决多大的问题,但当算力不断攀升,变成1000T、2000T,那功耗能变成1000瓦、500瓦,效果就很明显。边缘侧不像数据中心,能通过空调或液冷系统降温,功耗太高会直接影响边缘侧部署大模型。

二是访存问题,芯片设计算力有很大提升,对应的存储也需要有很大提升。如果存储不提高,只提升处理器的算力是没有用的,因为数据进不来。

所以,在大模型带来的大算力时代下,功耗和存储墙的问题都更加凸显。

36氪:与冯诺依曼架构的芯片相比,存算一体芯片有什么优势?与量子计算、光芯片相比又有何不同?

项之初:与传统芯片相比,存算一体芯片的优势,一是上限高,二就是底线稳。

上限高是说计算性能好,功耗更低,成本也更好。基于存算一体架构,计算可以直接在存储上进行,数据不用反复搬运,计算密度得到了提升。所以在单位计算面积,反而可以比原来的传统架构更小。由于无需数据搬运,也能降低功耗。

第二个是底线会更稳,在今天国际大环境下,先进制程芯片流片可能受到限制。而存算一体用28nm制程可以做出传统架构7nm的效果,这是供应链的一个重要保障。

和量子计算、光计算这些更前沿的芯片相比,它的优势是现在就可以商业量产,现在就可以跑边缘大模型。

打开网易新闻 查看精彩图片

图片来源:后摩智能联合创始人项之初于WISE2023商业之王大会分享

36氪:在存算一体技术上,国内外有什么研发进度的差异?
项之初:我觉得国内外在一个水平线上,在存算一体上我们并不落后,甚至还有优势。今年我们去日本参加学术会议,对于H30已经做到256T@Int 8算力这件事,他们是非常惊讶的。特斯拉目前也只是做了近存计算,没有做到存内计算。在存内这件事上,我们是领先的。

二、存算一体芯片具有算力大、功耗低优势

36氪:存算一体技术,更擅长解决什么样场景和问题?
项之初:从技术底层的架构看,它更适合Transformer类的算法,处理大量的矩阵相乘。存算单元可以将模型权重存储在里面,将摄像头、雷达等传感器数据直接load到芯片里,无需读取,直接完成计算。当然,在小算力、低功耗场景,存算一体芯片也具有优势。

36氪:在存算一体架构下,算力会有上限吗?

项之初:芯片算力都要受限于晶圆大小。但存算一体的单位算力成本可以做的比传统架构更低,是更有优势的。其次存算一体解决了访存问题,它的算力实际利用率也会更高。而且我们能够实现在功耗相同的情况下,实现几倍于传统架构的性能。

36氪:经过多年发展,存算一体技术已经有了较大发展和进步,您认为目前存算一体技术的成熟度如何?

项之初:存算一体技术还没有到最成熟、最好的时候。它还一直在迭代,不过已经完全满足商业量产需求了。

我们第一代H30芯片出来后,有很多人不相信我们可以做到256 tops算力,且功耗只有35瓦,测试之后发现我们真得做到了这个效果。在客户看来,我们编译器/工具链上手易用性非常好,即使和传统架构的芯片相比。

三、大模型从云端走向车端

36氪:随着大模型需求增加,哪些场景对存算一体芯片有需求?

项之初:云端肯定有需求,大模型训练需要超算中心,需要将许多高性能的计算单元连接起来,且通过液冷系统等处理他们的散热。

但云端的训练想要突破英伟达及CUDA生态难度很大,我们选择了车端,从推理场景切入。车端无法部署过多的芯片,且相对于云端有更迫切的成本限制,如何用量化的方式,用更高效的芯片解决这个问题,存算一体芯片会具有竞争力。

36氪:国内的存算一体公司都找到了各自的落脚点,有的选择了边缘侧,有的选择了数据中心大算力芯片场景。为什么后摩智能选择了车端等边缘端场景?

项之初:最初数据中心、车、安防和物联网等场景我们都看了,我们内部开了一个战略会,思考到底选择什么场景,把核心力量投向哪里。

分析一圈,我们觉得云端场景,对于英伟达的CUDA生态依赖太强,这对于初创公司直接去构建自己生态, 相对较难。安防场景已经没有太大的成长空间,市场机会小。物联网则是过于分散,投入和收益不匹配。而车这个场景,我们预测它到2026/2027年左右,在体量上和数据中心差不太多。且汽车市场的集中度适中,同时还有强烈的差异化供给需求,看中产品性能和性价比,是一个值得发展的场景。

做一个跟大家同质的东西会比较危险,还是要更有差异化才能活下来。当然,这也取决于团队基因,我们创始团队做过车规大芯片,也做过GPU芯片,有AI基因。如今大模型和AI在车端需求越来越大,这也证明我们当初的判断是对的。

36氪:后摩智能今年发布了存算一体智驾芯片——后摩鸿途®H30,对于车企而言,基于存算一体架构的芯片,与智能驾驶芯片相比,H30具有什么亮点?

项之初:我们的优势主要在于,更高的算力,可利用的性能,更低的功耗和成本。

我们今年5月份发布了第一颗芯片产品叫后摩鸿途®H30,这是一颗256 tops物理算力的芯片,只有35瓦功耗,而且只用了12nm工艺。在制程还落后了一代的情况下,做到了跟国际友商比2-3倍提升的性能,并且功耗只有它的1/2。如果不做一个底层的架构的创新,是不可能有这样的实际测试结果的。

打开网易新闻 查看精彩图片

后摩鸿途®H30 图片来源:后摩智能联合创始人项之初于WISE2023商业之王大会分享

我们的第二代芯片更值得市场期待,今年我们做了一个7nm的车规级验证样片,专为Transformer等车端大模型做了优化设计,11月已经通过了一个量产测试,良率、性能以及功耗的表现都有超出预期。相较于全球主流的存算一体产品,在存算模块我们有了五倍以上的能效提升。

36氪:大模型下沉边缘端是一个新趋势,车厂会对芯片提出哪些新的要求?

项之初:智能驾驶今年的火热程度,大家有目共睹。 车厂对于智能化配置也开始逐渐从“有没有”转换到“好不好用”,所以性能是他们考量的首要因素,编译器上手快,算力利用率高,其次车厂对芯片主要诉求还有成本,要让他们买得起,车端很难像云端一样,花几十万购买芯片。

最后,车对功耗很敏感,要将芯片的功耗压到车所能接受的程度。我们目前就在和国内某头部车厂合作,将基于Transformer大模型的demo,跑在我们的芯片上。

36氪:什么类型的大模型会更适合用于车这个场景?

项之初:现在看来Transformer很适合。车端原来更多是用CNN图像类模型,特斯拉引入了Transformer,Transformer的自注意力机制可以帮助GPT了解上下文的含义,也能让智能驾驶有了“上下文”,更好的做规划决策。另外车内座舱的一语音交互已经开始引入GPT,从这个角度看,Transformer可能会是更长时间维度里的赢家。

四、落地车厂,用起来最重要

36氪:存储介质的选择一直是存算一体行业的重要问题,站在现在这个时间节点,您怎样看待后摩智能所选择的介质?

项之初:非常好。成熟的存储介质其实就是Flash,SRAM和DRAM等。大家可能用得比较多的是Nor Flash和SRAM。Nor Flash受限于写的速度和可擦写次数,不能用于高频擦写场景,更适合用于固定模型的小端侧场景。对SRAM来说,对功耗敏感的大算力场景非常合适,缺点是它的密度会比Nor Flash要低。目前来说SRAM是唯一可量产的自动驾驶芯片存储介质,我们实际上也没有什么选择。

对于先进存储ReRAM和MRAM等,我的观点是先有产品出来,再讨论好用不好用。我们去年也做了ReRAM的流片,在实验室和SRAM比较了一下,可擦写次数上ReRAM差了2-3个数量级。这个拿来商用,我们觉得还不到做大芯片的时机,还没成熟。

36氪:对于芯片而言,要想用起来,还需要完善的软件生态。后摩智能在软件生态上有何思考?

项之初:要想让芯片用起来,最主要的是编译器、工具链的工作,我们在芯片点亮后,做了大量的编译器和工具链的优化工作。像车厂这样的客户,试用机会只有一次,如果第一次测试产品的时候不好用,后面就很难有敲门的机会了。

我们一定要做到自己心里有底,才敢给客户送样。只有客户的产品能在芯片上用起来,才会去讨论芯片的算力、功耗等性能。

我们一直在强调把编译器和工具链做好,让客户在上面用起来,而且只有经过用户侧的反复敲打,工具链和编译器才能越来越好,得到客户的反馈后及时迭代新版本。

36氪:为了更好发挥算力的作用,后摩智能在架构等层面做了哪些努力?

项之初:我们用CIM解决了矩阵乘加的暴力计算问题,在此之外,我们还设计了一些更通用的单元,比如去做向量的乘法和非线性计算。同时,在这些之外,我们预留了通用计算单元来支持尚未出现的算法。芯片从设计到生产是有2-3年周期的,算法迭代却很快,我们要在设计的时候就考虑到这一点。

36氪:大模型会不断提出新的算子需求,对此后摩智能会有什么产品计划吗?

项之初:我们新一代产品H50就重点考虑了车端大模型。一是在底层算力单元上,通过技术迭代,增加效率。二是我们对Transformer等算法做了进一步的优化。

我们的验证产品已经流片回来了,测试结果很令人兴奋,相较于上一代芯片,它各方面都有提升。我们采用了7nm的制程,是国内首款采用7nm制程的存算一体芯片。

此外,公司在算力上覆盖了更多的产品组合,希望能满足车企不同产品的的需求。

36氪:存算一体芯片在产业大规模应用,会遇到什么问题?

项之初:CUDA生态,这是除了英伟达以外,所有算力芯片公司都要面对的问题。

对存算一体芯片来说,如果我们能做到硬件上同巨头相比有大几倍甚至一个数量级的计算效率的优势,让一些用户能在场景里用起我们的芯片,再慢慢突围,积累自己的生态,就能慢慢减少封锁。

36氪:CUDA对车场景的限制大吗?

项之初:数据中心的训练对CUDA依赖最多,其次是数据中心的推理,自动驾驶等边缘端的推理再次之。

36氪:在自动驾驶场景,有必要再构建出一个类似CUDA的工具链吗?

项之初:我认为具有对接功能就好,当下还是要先符合用户的使用习惯,让用户能用起来。随着客户使用,会生长出适合存算一体芯片的算子库、算法,这些会构成我们的生态。而且在车这个场景,CUDA的优势不及云端。

36氪:您曾提到,未来可能也希望向仿生机器人一类对算力和功耗敏感的场景探索,今年以来具身智能都非常火热,公司有做过将存算一体技术用于人形机器人上的探索吗?

项之初:我们理解车是机器人形态的一种,智能车是相对低阶的机器人。特斯拉的擎天柱,就和其自动驾驶采用的是同一套软硬件方案。具身智能会是我们很关注的场景。而且机器人对于功耗会更敏感,和存算一体芯片会很契合。

结语

如今,大模型已显现出与智能车结合的倾向。大模型的出现让更多车企看到了推动自动驾驶进一步落地的可能。

自动驾驶已停留在L2级许久。复杂的城市环境,突如其来的道路变化,都是以高精度地图为基础的NOA技术所无法应对的,再精细的道路情况采集也无法预料到突然窜出的车,顾及不到时常翻修的道路这些情况。

大模型,让车厂们敢于去探索NOA,希望通过大模型的加持,让车辆可以根据感知到的信息,了解车身附近的实际状况,并及时性地处理复杂的数据,做出推测、判断。

如今,小鹏宣布将在数十个无图城市推动XNGP,华为则表示要在今年四季度实现45座城市的无图商用辅助驾驶,理想自动驾驶计划则是100个城市。

能支撑大模型能力的智能驾驶芯片,成为整个行业的期冀。在这样的市场需求下,存算一体芯片大算力、低功耗的特点,能与车这个场景很好结合。

后摩智能已开始与车企开始进行相关探索,其新一代产品H50也着重考虑了对车端大模型的支持,一方面提高芯片的算力大小,提高芯片效率,另一方面也针对Transformer等算法进行进一步优化。

在大模型下沉车端的时代大势下,存算一体芯片将助力行业迈入2.0时代。

打开网易新闻 查看精彩图片