公众号记得加星标⭐️,第一时间看推送不会错过。
人工智能时代的电力故事通常以庞大的数字开篇:千兆瓦级的数据中心需求、每个机架数百千瓦的电力、800伏直流电、高压直流输电、变电站以及建在电网旁的新园区。所有这些都至关重要。它们描述了人工智能基础设施电力供应方式的真正转变。但它们仅仅解释了瓶颈的一方面。
与此同时,一些更小的部件也在悄然发生变化。一个在系统层面几乎不可见的组件,悄然成为了制约因素之一:芯片电容。在人工智能GPU板周围,MLCC(多层陶瓷电容)的数量可能高达数千个。而在服务器层面,这个数字甚至可以达到数万个。与变电站和输电线路的故事一样,一个比指甲盖还小的组件,也成为了人工智能功耗问题的一部分。
为什么会发生这种情况?常见的答案很简单:“因为行业正在向 800V 电压过渡。”这个答案听起来合情合理,但并不精确。要了解 MLCC 需求为何激增,我们必须追踪电源的流向,一直到 GPU,然后观察电源到达 GPU 之前发生了什么。
同样的力量,不同的瓶颈
电力单向流动,但其面临的问题却因系统位置的不同而截然不同。上游电力输送的关键在于高效地远距离传输大量电力。此时,更高的电压至关重要。在相同功率下,提高电压可以降低电流,而降低电流则可以减少电缆损耗和铜材用量。正因如此,人工智能机架正朝着更高的配电电压发展,而 800V 直流电压则处于这一趋势的前沿。
下游供电必须解决相反的问题。提高电压并不能解决问题。GPU核心最终运行在低于1V的电压水平。电压低,电流大,负载变化非常迅速。因此,同一个供电系统要应对两个不同的挑战:上游要应对损耗,下游要应对不稳定。MLCC的需求在第二个挑战中激增。
最后一厘米
供水系统能很好地说明这一点。水从大型水库流出,经过大型管道,进入城市,最终到达水龙头。但当有人突然打开水龙头时,远处的水库无法立即响应。管道有长度、惯性和延迟。压力变化需要时间才能传递。如果在水龙头附近有一个小型储水箱,系统的运行方式就会有所不同。当突然需要用水时,小型储水箱会首先响应。当压力波动时,它可以局部吸收冲击。
GPU附近的MLCC可以解决类似的问题。当GPU突然需要电流时,远端电源无法立即响应。电源路径始终存在电阻、电感和延迟。芯片内部的开关操作会在纳秒级产生快速的电流需求,而电路板和VRM则会在更宽的时间范围内经历负载瞬变。无论哪种情况,远端电源都无法立即满足需求。本地MLCC可以优先响应。
MLCC(多层陶瓷电容器)并非电池。它无法储存能量数秒或数分钟。它是一个局部缓冲器,在极短的时间窗口内释放或吸收电荷。它还有助于分流高频纹波并抑制开关活动产生的噪声。仅仅将电力输送到GPU附近是不够的。电力必须及时到达,波动幅度小,并且以芯片实际可以使用的形式输送。
MLCC并非长时储能装置,而是用于电流的局部定时装置。
从瀑布到三角洲
当电源到达GPU时,它已经经过多个降压阶段。在传统的服务器电源架构中,服务器电源先经过电源单元(PSU),然后进入12V或48V等中间总线,最后通过电压调节模块(VRM)进入芯片使用的低于1V的电源轨。新型AI机架式架构在此基础上增加了一个更高的分配电压,例如800V直流。一些架构会将800V降压至48V。另一些架构则考虑绕过48V,直接使用较低的中间电源轨,例如6V。
中间转换阶段可能因架构而异,但最终目标始终相同:即GPU核心使用的低于1V的电源轨。将一种直流电压转换为另一种直流电压的过程称为DC-DC转换。
基本关系很简单:
电压越高,相同功率所需的电流就越小。电压下降时,电流必然增大。
这就是为什么800V电压看起来像一道落差极大的瀑布。它能让系统以较低的电流高效地传输电力。但GPU核心需要的并非瀑布,而是更接近三角洲的景象:低压,但流量巨大。DC-DC转换器正是将两者相转换。它将高电压、低电流的电力转换为低电压、高电流的电力。这并非简单地浪费能量,而是改变了压力和流量的组合。
但这种转换过程并非绝对平滑。转换器通过快速开关电源来产生所需的平均电压和电流。这就像快速开关闸门来控制平均水流一样。每次闸门移动,下游的流量和压力都会波动。在电力系统中,这种波动表现为纹波和负载阶跃瞬态响应。GPU 附近的 MLCC 就像最终电压差附近的局部小型缓冲罐。当电流波动时,它们会吸收附近的波动,并将开关转换产生的粗糙输出转换为芯片实际可用的信号。
常见的误解
这时,自然而然地会产生一个问题:如果电力系统正在向800V过渡,那么800V是否导致了MLCC需求的激增?
这虽然是个诱人的答案,但并非最精确的答案。800V 是一种上游解决方案。随着机架功率的增加,以较低电压输送电力变得越来越困难。较低的电压意味着较高的电流。较高的电流意味着更高的 I²R 损耗、更粗的电缆、更多的热量以及更不实用的配电结构。因此,电压需要提高。
800V 是一种将电力高效输送到数据中心和机架的方法。上游的故事——为什么是 800V,为什么是现在——这本身就是一个值得探讨的问题。这就像拓宽高速公路一样。但 800V 并不能直接解决 GPU 前端的高电流、快速瞬态问题。这个问题仍然属于 VRM、PDN 和 MLCC 的范畴。
这样更容易理解因果链:AI GPU 的扩展同时给上游和下游的供电都带来了压力。上游通过提高电压分配(包括 800V 直流)来应对。下游则通过更强大的 VRM、更紧凑的 PDN 和更积极的解耦来应对。
因此,800V电压和不断增长的MLCC需求并非直接的因果关系。它们是同一根本原因的两个结果:AI GPU需要更高的功率和更快的瞬态响应。但这并不意味着800V电压无关紧要。它能够支持更高的机架功率和更大的GPU系统。如果没有上游扩展能力,高功率GPU系统会更早达到性能瓶颈。如果这些系统无法扩展,下游MLCC的需求就不会以同样的方式增长。
800V电压本身并没有创造对MLCC的需求,它只是促成了对MLCC需求的系统出现。
系统真正想要的是什么
现在问题变得更加具体了。如果更大的GPU系统成为可能,为什么这些系统还需要这么多MLCC?常见的解释是基于数量的:一块AI GPU板卡使用大量的MLCC,而GPU出货量不断增长,因此需求也随之增加。这种解释没错,但它只触及了问题的冰山一角。
电源分配的设计并非基于元件数量,而是基于目标阻抗。工程师首先要确定芯片在突然需要更大电流时能够承受的电压波动范围,然后设计电源分配网络以满足该条件。
大多数读者都知道V=IR。电流流过电阻时,电压会下降。功率传输的原理也类似,但这里的R不仅仅是直流电阻。在高频下,电感和电容也会产生影响。这时,问题就变成了阻抗,或Z。
PDN 的关键关系是:
其含义很简单。如果负载突然需要额外的电流ΔI,而电压只允许变化ΔV,那么电源分配网络的阻抗必须保持在目标值以下。
在AI GPU中,电流和电压同时朝着错误的方向发展。电流步长越来越大,而允许的电压变化幅度却越来越小。分子缩小,分母增大,目标阻抗急剧下降。
这才是MLCC需求激增的真正原因。系统本身并不需要更多的电容器,它需要的是更低的阻抗。而MLCC恰好是满足芯片附近这种需求的最实用方法之一。
系统并没有要求增加电容器,而是要求降低阻抗。
为什么会变成电容器问题
“降低阻抗”听起来可能很抽象。但在芯片附近的高频供电环境中,它就变得非常具体了。当突然需要电流时,远端的电源无法立即响应。必须有某种东西来填补这个空白。在电压波动不能过大的短暂窗口期内,最直接有效的工具就是电容。
另一个简单的等式也能有所帮助:
这解释了为什么MLCC的数量会急剧增加。GPU需要更大的瞬时电流,允许的电压波动范围更小,系统必须在更短的时间窗口内做出响应。为了在更短的时间内支持更大的电流阶跃和更小的电压波动,系统需要在负载附近使用更多有效的电容。
这并非自相矛盾。目标并非电容本身,而是降低阻抗。但在AI GPU供电网络的最后几厘米,MLCC(多层陶瓷电容器)是实现降低阻抗的最重要物理途径之一。
真正的电源分配网络(PDN)设计并非仅仅是增加电容。等效串联电感(ESL)和等效串联电阻(ESR)会影响自谐振特性。反谐振会损害宽带阻抗。封装电感会改变芯片所感受到的有效阻抗。电路板布局和电压调节模块(VRM)控制回路决定了整个系统的响应。
但方向很明确:更大的电流阶跃、更小的电压容差、更短的响应窗口、更低的阻抗以及更多的MLCC电容。在AI GPU领域,这些趋势同时朝着同一个方向发展。
同样的压力,两种结果
VRM也面临着同样的压力。正如前文所述……最后几厘米随着人工智能GPU性能的提升,电压调节模块(VRM)也扩展到了多相结构。人们很容易由此得出结论:“相数越多,MLCC(多层陶瓷电容器)就越多。” 方向大致正确,但这种解释并不全面。
多相电压调节模块(VRM)可以通过交错排列来降低纹波。如果只考虑纹波,增加相数似乎可以减少对输出电容的需求。但纹波并非增加相数的唯一原因。真正的原因是电流。单相供电无法合理地处理现代AI GPU所需的电流、热负载和瞬态响应。将负载分配到多相供电中可以分散热量、共享电流并改善响应速度。
随着这种情况的发生,每个功率级附近的输入去耦要求变得更高。在输出端,共享电源轨需要更密集的去耦网络才能满足整体阻抗目标。开关节点数量增加,局部噪声源也随之增多。功率转换变得更加分散,并更靠近负载。最终,MLCC 的需求并非仅仅是相数的函数,而是阻抗目标的函数。
多相电压调节模块(VRM)并非MLCC(多层陶瓷电容器)的出现,而是与之同步发展。同样的压力因素导致了相数和MLCC数量的增加。这种压力因素有一个名称:高电流、低电压、快速瞬态。
人工智能改变了能源消耗方式
将MLCC需求解释为“更多AI服务器”忽略了问题的一半以上。AI GPU确实会消耗更多电力,但更重要的变化在于它们的耗电方式。
电压下降,电流上升,负载瞬态响应加快,电源转换单元更靠近芯片,允许的电压波动范围也更小。这些变化共同导致电源分配网络(PDN)的阻抗目标值降低。在最后阶段,实现这一目标的最有效方法是在负载附近放置更高效的电容。
由于阻抗必须降低,MLCC 的数量增加了。
在系统层面,层级结构清晰。800V 是远距离输送电力的主干线。48V 则是较小的配电线路。电压调节模块 (VRM) 将 800V 的电力转换为芯片实际可用的电压。而多层陶瓷电容器 (MLCC) 则位于最终交汇点旁,起到局部缓冲作用,在电流到达负载之前吸收部分电流。MLCC之后会发生什么呢?最后一微米进入模具本身这是另一个问题。
人工智能的瓶颈不仅在于如何为数据中心提供更多电力,还在于如何确保电力在最后一厘米的稳定供应。而这最后一厘米的稳定供应,是由一个比指甲盖还小的组件来保障的。
这就是多层陶瓷电容器发挥作用的地方。
并非因为电容器变得令人兴奋,而是因为人工智能使得电力传输的最后一厘米变得不容忽视。
(来源:编译自nutty)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4400内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴