AI的尽头是光伏,储能和电力”略有夸张,但算力和数据中心一定是AI的重要元素。

网友P图,请勿当真

当时黄仁勋用了夸张的方式举例,他真正想说的是,关注英伟达GPU,只有自家产品性能会一直进步。

在2024 年2月12日“世界政府峰会”上与阿联酋国务大臣Omar Sultan AlOlama最新对谈里,“当我们替换通用计算的基础设施时,请记住架构的性能将不断提高。你不能只想着要购买更多的计算机,你还必须假设,计算机的速度会越来越快。因此,你所需要的总量就不会这么多了。”

“否则,如果你只是假设计算机的速度永远不会变快,你可能会得出一个结论——我们需要 14 个不同的行星、3 个不同星系、4 个太阳为这一切提供燃料。”

因此,只有算力和超算中心才是确定事项。在超算中心升级前,先回顾

Subscribe

数据中心分为三大部分:

  1. 基础层面,半导体对数据中心提供了核心支持。

  2. 中间层面是数据中心本身,可以分为计算、网络和存储;这些都打包在服务器中。还有运行数据中心所需的技术如电力和冷却技术,以及数据中心的第三方运营商。

  3. 在云层面,面向客户提供各种技术服务。

建设数据中心所需的基础设施包括土地、建筑、变压器、电源管理和冷却技术。一些超大规模数据中心超过一百万平方英尺,大约有25个足球场。

黄仁勋此前估计,数据中心约50%成本用于基础设施,另外50%用于计算、网络和存储。所有这些设备都是为容纳计算和存储能力的服务器提供动力。

英伟达DGX A100 服务器

这些服务器、网络设备和存储器一起放在机架中。数据中心内有成百上千个这样的机架。数据中心就是这样一个由数千栋建筑物、内有无数计算机的数据链接支持着世界的线上运转。

试着分解一下数据中心这个庞大的产业链。

1,计算

1.1 计算基础知识

计算是指在服务器上运行应用程序所需的处理能力和内存。根据工作负载的类型,服务器使用不同类型的芯片,通常是CPU或GPU。CPU是计算机的中央处理器;它们擅长处理复杂的操作并充当软件的主要接口。GPU擅长并行处理,可以一次完成许多简单的操作。这就是为什么适合AI工作负载。

数据中心三大主要芯片供应商

其他类型的芯片占有率不高,如专用集成电路ASIC和FPGA。ASIC是针对特定工作负载的定制芯片,例如谷歌的AI加速芯片TPU。

从逻辑上讲,ASIC在云数据中心中得到更频繁使用,因为微小的效率提升可以为超大云企业带来显著的成本降低。FPGA可以重新配置以实现不同的操作。目前均在数据中心广泛使用,但未来前景广阔。

1.2 CPU市场

CPU市场历来由英特尔主导,AMD居第二。现在AMD以及来自Ampere、亚马逊、英伟达等公司基于Arm的CPU对英特尔发起更多挑战。CPU市场呈现如下两大趋势。

首先,AMD 一直从英特尔手中夺取x86处理器的份额。 这在很大程度上要归功于苏姿丰的领导力。她于2014年接手AMD,过去十年中取得了卓越的成绩:EPYC数据中心CPU系列持续取得成功。英特尔也在尝试重塑业务,正在大力打造代工服务,希望夺回先进制程的制造能力。

其次,基于Arm的服务器在扩大市场份额

多年来,Arm一直是智能手机的首选架构。最近这种趋势也延续到了数据中心。

亚马逊率先于2018年发布了Graviton处理器。该处理器估计已增长到数据中心CPU出货量的3-4%左右。英伟达最近发布了其首款数据中心CPU:Grace系列芯片。微软等也在生产基于Arm的CPU。这种趋势对英特尔和AMD都不利。定制芯片的走向应该继续关注。

1.3 GPU市场

GPU市场目前由英伟达主导。数据中心GPU的主要竞争对手是AMD的MI300。AMD预计其数据中心GPU到2024年将产生3.5亿美元的收入。英特尔也提供数据中心GPU,分析师估计明年将贡献8.5亿美元的收入。

富国银行预计2025年英伟达GPU收入将达到460亿美元。将这些数据与AMD和英特尔比较,英伟达隐含市场份额为96-98%,2024年将下降至92-94%。

1.4 ASIC 市场 - AI加速器

GPU的另一个竞争对手是AI加速器,从长远来看,它可以从英伟达业务中抢食。最有可能的竞争来自大型科技公司,这四家超大云企业都有自己的AI加速器:

  • 谷歌的张量处理单元(TPU)。TPU自2016年起开始生产,由博通(Broadcom)支持,台积电代工。

  • 亚马逊:Trainium于2022年10月上市,Inferentia于2021年上市,由台积电代工。

  • Meta:元训练和推理加速器(MTIA)于2020年在台积电7奈米工艺上设计。

  • 微软Maia于2023年发布,预计2024年上市,采用台积电5奈米工艺制造。

初创公司也可能带来挑战,尽管由于晶圆厂先进产能的局限,短期内似乎不太可能,但芯片初创企业会成为未来几年的热门风投目标。

2. 数据中心网络(Data Center Networking)

网络支持服务器、存储和应用之间的数据流。我们来谈谈网络的重要概念/技术,以太网与InfiniBand,以及主要参与者。

2.1 网络基础知识

三种最基本的网络技术是交换机、路由器和电缆,还有几种用于数据处理的芯片。

  • 交换机连接服务器、存储和其他网络设备;它们确保设备之间的数据流。

  • 路由器连接不同的网络和子网。当数据流入和流出数据中心时,路由器会处理数据流,使其到达正确的位置。

- 交换机促进同一网络内的通信。路由器提供与其他网络的连接。

- 交换机和路由器可以是以太网或InfiniBand(无限带宽)。

  • 光纤和电缆:将路由器、交换机和数据中心连接到世界各地的物理电缆。

上述这些技术构成了数据中心网络的根本。不同的网络都通过LAN、MAN和WAN等网络拓扑技术进行组织,就不在这里讨论了。

数据中心网络的流行模型是脊叶模型(下图):

每个机架的顶部都有交换机(叶交换机)。交换机各自连接到几个更大的连接网络的交换机。一个重要的概念是每片叶子都连接到每根脊柱。如果一台服务器出现故障,流量可以路由到其他服务器,不会中断服务。

服务器内也有网络的作用。例如在英伟达DGX A100中,8个GPU通过NV交换机聚在一起以分配计算。

最后需要谈一下InfiniBand与以太网这两种主要的网络技术。根本上说以太网速度较慢、成本较低且使用广泛。Infiniband更快更贵,在高性能计算占主导地位。

以太网是2000年代的主导网络技术。2010年代初,Infiniband超过以太网成为高性能计算的主导技术。随着高性能计算需求的增长,Infiniband的重要性上升。以太网仍是无所不在的网络标准,而在高性能计算领域,标准是Infiniband。InfiniBand通常用于连接多个服务器或者多个服务器和存储之间的连接。运行处理大量数据的工作负载如LLM时,就可以减少延迟。

2.2 网络市场趋势

网络设备市场共有三大领先厂商:思科、Arista和英伟达(收购了Mellanox)。有两个主要趋势:

(1)以太网领域的思科与Arista

过去十年来,Arista稳步从思科手中夺取份额,主要因为Arista对高性能计算云提供商的专注。Arista管理层表示,40%的收入来自“云和AI”巨头公司。像微软这样的大客户支撑了Arista飞速的发展,收入复合年增长率达32.3%。

(2)Infiniband与以太网

以太网几十年来一直是网络标准。Infiniband已经在高性能计算领域站稳了脚跟,在数据中心中很流行。目前的状况是,Infiniband和以太网都不完美,需要进一步发展才能争取成为AI的标准。近期由于Infiniband和英伟达的结合,使Infinibank有望成为标准。未来随着更多的定制芯片、定制系统架构和以太网的开发,最终结果还很难下定论。

2.3 英伟达网络

网络是英伟达在2023年的一块突破性业务。英伟达2020年收购了Infiniband网络的领导者Mellanox。现在看起来这是英伟达最神来一笔的收购案,因为现在Mellanox的网络业务规模是过去的数倍。

英伟达现在已经将网络集成到其产品作为一个集成平台在销售,例如前面展示的DGX超级计算机。这使得英伟达几乎垄断了数据中心GPU和InfiniBand网络。英伟达由此可以提供从软件到芯片的整个AI堆栈。

黄仁勋在电话会议谈及网络业务的成长时大致算了如下数字:计算和网络的计算部分销售额为119.4亿美元,同比增长4.24倍,网络部分的销售额为25.8亿美元,同比增长2.55倍。

英伟达最近还发布了专为AI以太网工作负载设计的Spectrum-X以太网平台(他们也看到了以太网的重要性)。以太网业务相对较小,却提供了另一个扩张途径。

2.4 网络芯片

首先一些术语:

  • NIC:网络接口卡是与交换机通信并将数据传递到CPU进行处理的半导体。

  • SmartNIC:SmartNIC更进一步,消除了CPU一部分的工作负载处理。然后可以直接与GPU通信。

  • 数据处理单元(DPU):DPU再进一步,将更多功能集成到芯片上。DPU的目标是提高AI工作负载的处理效率并消除CPU的处理需求。

Broadcom和Marvell是网络领域最大的两家半导体供应商(英伟达之外)。Broadcom的网络业务规模庞大,约占其收入的25%。Broadcom过去12个月的收入为110亿美元,是仅次于思科的全球第二大网络公司。

3. 存储

3.1 存储基础知识

存储是数据中心计算的第三个主要部分。在数据中心存储中,存在两个主要选项:闪存和磁盘。以固态硬盘或SSD为代表的闪存是高性能计算工作负载的首选,因为需要高带宽和低延迟的快速数据访问。另一方面,磁盘(硬盘驱动器 - HDD)提供更高的容量,但带宽较低且延迟较高。对于长期存储需求,磁盘仍然是首选技术。

数据中心内有几种存储架构:

  • 直接附加存储(DAS) - 存储直接连接到服务器,只有该服务器可以访问该存储。

  • 存储区域网络(SAN) - 允许多个服务器访问池存储的网络。

  • 网络附加存储(NAS) - 连接到网络的存储

  • 软件定义存储(SDS) - 一个虚拟化层,可汇集物理存储,提供额外的灵活性和可扩展存储。

4. 其他关键组件

为了简单起见,罗列一下数据中心的其他关键组件:

4.1 服务器

服务器将CPU、GPU、网络、内存和冷却功能集成到一个单元中。如下数据较旧但市场变化不大。

原始设计制造商(ODM)负责产品的设计和制造。然后OEM购买该硬件,并专注于产品的销售、营销和支持。最近你可能听说过SMCI这家爆红的公司,它主要是OEM,但也从事一些ODM工作。他们是英伟达的重要OEM,所以也跟着在去年爆发式增长。

4.2 电源管理/冷却

据估计,数据中心50-60%的成本来自计算、网络和存储。另外40-50%来自电力、制冷、安防、运营商、建筑、房地产等。

这40-50%中的最大开支用于电源管理,包括配电、发电机和不间断电源系统。这里的领导企业是施耐德电气、ABB、伊顿和西门子等大型工业公司。这是一张很好的可视化图表(下图)。

数据中心冷却包括冷水机组、机房空调(CRAC)、机房空气处理器(CRAH)和HVAC装置。市场领导者包括Vertiv、Stulz、施耐德电气和Airedale International。

4.3 运营商

运营商是为其他公司构建、管理和托管物理服务器的第三方公司。一种流行的模式是托管,如Equinix为企业提供放置服务器和网络设备的空间。这里有一个很好的可视化图。

4.4 建筑/房地产/电力/安防

这几个部分是数据中心必要的物理组成。必须购买和开发土地,使用大量电力。此外必须确保高度安全,因为它们包含世界上最重要的信息。

5. 小结

最后,数据中心业务是投资者参与AI大潮的一种很好方式。由于客户集中度和进入壁垒,数据中心业务更适合大型上市公司。

投资数据中心有很多种方式:半导体、网络、存储、云提供商(投资于需求而不是供应)、房地产、电力、电源管理和冷却。所有这些领域都可能受益于计算需求的增长。投资者如何投资,取决于自己对某个专业领域的熟悉程度。

Coeus Capital Research ,See Us,看见全球资本市场!

觉得好看,点个赞和在看