AI的尽头是光伏,储能和电力”略有夸张,但算力和数据中心一定是AI的重要元素。
网友P图,请勿当真
当时黄仁勋用了夸张的方式举例,他真正想说的是,关注英伟达GPU,只有自家产品性能会一直进步。
在2024 年2月12日“世界政府峰会”上与阿联酋国务大臣Omar Sultan AlOlama最新对谈里,“当我们替换通用计算的基础设施时,请记住架构的性能将不断提高。你不能只想着要购买更多的计算机,你还必须假设,计算机的速度会越来越快。因此,你所需要的总量就不会这么多了。”
“否则,如果你只是假设计算机的速度永远不会变快,你可能会得出一个结论——我们需要 14 个不同的行星、3 个不同星系、4 个太阳为这一切提供燃料。”
因此,只有算力和超算中心才是确定事项。在超算中心升级前,先回顾
Subscribe
数据中心分为三大部分:
基础层面,半导体对数据中心提供了核心支持。
中间层面是数据中心本身,可以分为计算、网络和存储;这些都打包在服务器中。还有运行数据中心所需的技术如电力和冷却技术,以及数据中心的第三方运营商。
在云层面,面向客户提供各种技术服务。
建设数据中心所需的基础设施包括土地、建筑、变压器、电源管理和冷却技术。一些超大规模数据中心超过一百万平方英尺,大约有25个足球场。
黄仁勋此前估计,数据中心约50%成本用于基础设施,另外50%用于计算、网络和存储。所有这些设备都是为容纳计算和存储能力的服务器提供动力。
英伟达DGX A100 服务器
这些服务器、网络设备和存储器一起放在机架中。数据中心内有成百上千个这样的机架。数据中心就是这样一个由数千栋建筑物、内有无数计算机的数据链接支持着世界的线上运转。
试着分解一下数据中心这个庞大的产业链。
1,计算
1.1 计算基础知识
计算是指在服务器上运行应用程序所需的处理能力和内存。根据工作负载的类型,服务器使用不同类型的芯片,通常是CPU或GPU。CPU是计算机的中央处理器;它们擅长处理复杂的操作并充当软件的主要接口。GPU擅长并行处理,可以一次完成许多简单的操作。这就是为什么适合AI工作负载。
数据中心三大主要芯片供应商
其他类型的芯片占有率不高,如专用集成电路ASIC和FPGA。ASIC是针对特定工作负载的定制芯片,例如谷歌的AI加速芯片TPU。
从逻辑上讲,ASIC在云数据中心中得到更频繁使用,因为微小的效率提升可以为超大云企业带来显著的成本降低。FPGA可以重新配置以实现不同的操作。目前均在数据中心广泛使用,但未来前景广阔。
1.2 CPU市场
CPU市场历来由英特尔主导,AMD居第二。现在AMD以及来自Ampere、亚马逊、英伟达等公司基于Arm的CPU对英特尔发起更多挑战。CPU市场呈现如下两大趋势。
首先,AMD 一直从英特尔手中夺取x86处理器的份额。 这在很大程度上要归功于苏姿丰的领导力。她于2014年接手AMD,过去十年中取得了卓越的成绩:EPYC数据中心CPU系列持续取得成功。英特尔也在尝试重塑业务,正在大力打造代工服务,希望夺回先进制程的制造能力。
其次,基于Arm的服务器在扩大市场份额
多年来,Arm一直是智能手机的首选架构。最近这种趋势也延续到了数据中心。
亚马逊率先于2018年发布了Graviton处理器。该处理器估计已增长到数据中心CPU出货量的3-4%左右。英伟达最近发布了其首款数据中心CPU:Grace系列芯片。微软等也在生产基于Arm的CPU。这种趋势对英特尔和AMD都不利。定制芯片的走向应该继续关注。
1.3 GPU市场
GPU市场目前由英伟达主导。数据中心GPU的主要竞争对手是AMD的MI300。AMD预计其数据中心GPU到2024年将产生3.5亿美元的收入。英特尔也提供数据中心GPU,分析师估计明年将贡献8.5亿美元的收入。
富国银行预计2025年英伟达GPU收入将达到460亿美元。将这些数据与AMD和英特尔比较,英伟达隐含市场份额为96-98%,2024年将下降至92-94%。
1.4 ASIC 市场 - AI加速器
GPU的另一个竞争对手是AI加速器,从长远来看,它可以从英伟达业务中抢食。最有可能的竞争来自大型科技公司,这四家超大云企业都有自己的AI加速器:
谷歌的张量处理单元(TPU)。TPU自2016年起开始生产,由博通(Broadcom)支持,台积电代工。
亚马逊:Trainium于2022年10月上市,Inferentia于2021年上市,由台积电代工。
Meta:元训练和推理加速器(MTIA)于2020年在台积电7奈米工艺上设计。
微软Maia于2023年发布,预计2024年上市,采用台积电5奈米工艺制造。
初创公司也可能带来挑战,尽管由于晶圆厂先进产能的局限,短期内似乎不太可能,但芯片初创企业会成为未来几年的热门风投目标。
2. 数据中心网络(Data Center Networking)
网络支持服务器、存储和应用之间的数据流。我们来谈谈网络的重要概念/技术,以太网与InfiniBand,以及主要参与者。
2.1 网络基础知识
三种最基本的网络技术是交换机、路由器和电缆,还有几种用于数据处理的芯片。
- 交换机促进同一网络内的通信。路由器提供与其他网络的连接。
- 交换机和路由器可以是以太网或InfiniBand(无限带宽)。
光纤和电缆:将路由器、交换机和数据中心连接到世界各地的物理电缆。
上述这些技术构成了数据中心网络的根本。不同的网络都通过LAN、MAN和WAN等网络拓扑技术进行组织,就不在这里讨论了。
数据中心网络的流行模型是脊叶模型(下图):
每个机架的顶部都有交换机(叶交换机)。交换机各自连接到几个更大的连接网络的交换机。一个重要的概念是每片叶子都连接到每根脊柱。如果一台服务器出现故障,流量可以路由到其他服务器,不会中断服务。
服务器内也有网络的作用。例如在英伟达DGX A100中,8个GPU通过NV交换机聚在一起以分配计算。
最后需要谈一下InfiniBand与以太网这两种主要的网络技术。根本上说以太网速度较慢、成本较低且使用广泛。Infiniband更快更贵,在高性能计算占主导地位。
以太网是2000年代的主导网络技术。2010年代初,Infiniband超过以太网成为高性能计算的主导技术。随着高性能计算需求的增长,Infiniband的重要性上升。以太网仍是无所不在的网络标准,而在高性能计算领域,标准是Infiniband。InfiniBand通常用于连接多个服务器或者多个服务器和存储之间的连接。运行处理大量数据的工作负载如LLM时,就可以减少延迟。
2.2 网络市场趋势
网络设备市场共有三大领先厂商:思科、Arista和英伟达(收购了Mellanox)。有两个主要趋势:
(1)以太网领域的思科与Arista
过去十年来,Arista稳步从思科手中夺取份额,主要因为Arista对高性能计算云提供商的专注。Arista管理层表示,40%的收入来自“云和AI”巨头公司。像微软这样的大客户支撑了Arista飞速的发展,收入复合年增长率达32.3%。
(2)Infiniband与以太网
以太网几十年来一直是网络标准。Infiniband已经在高性能计算领域站稳了脚跟,在数据中心中很流行。目前的状况是,Infiniband和以太网都不完美,需要进一步发展才能争取成为AI的标准。近期由于Infiniband和英伟达的结合,使Infinibank有望成为标准。未来随着更多的定制芯片、定制系统架构和以太网的开发,最终结果还很难下定论。
2.3 英伟达网络
网络是英伟达在2023年的一块突破性业务。英伟达2020年收购了Infiniband网络的领导者Mellanox。现在看起来这是英伟达最神来一笔的收购案,因为现在Mellanox的网络业务规模是过去的数倍。
英伟达现在已经将网络集成到其产品作为一个集成平台在销售,例如前面展示的DGX超级计算机。这使得英伟达几乎垄断了数据中心GPU和InfiniBand网络。英伟达由此可以提供从软件到芯片的整个AI堆栈。
黄仁勋在电话会议谈及网络业务的成长时大致算了如下数字:计算和网络的计算部分销售额为119.4亿美元,同比增长4.24倍,网络部分的销售额为25.8亿美元,同比增长2.55倍。
英伟达最近还发布了专为AI以太网工作负载设计的Spectrum-X以太网平台(他们也看到了以太网的重要性)。以太网业务相对较小,却提供了另一个扩张途径。
2.4 网络芯片
首先一些术语:
NIC:网络接口卡是与交换机通信并将数据传递到CPU进行处理的半导体。
SmartNIC:SmartNIC更进一步,消除了CPU一部分的工作负载处理。然后可以直接与GPU通信。
数据处理单元(DPU):DPU再进一步,将更多功能集成到芯片上。DPU的目标是提高AI工作负载的处理效率并消除CPU的处理需求。
Broadcom和Marvell是网络领域最大的两家半导体供应商(英伟达之外)。Broadcom的网络业务规模庞大,约占其收入的25%。Broadcom过去12个月的收入为110亿美元,是仅次于思科的全球第二大网络公司。
3. 存储
3.1 存储基础知识
存储是数据中心计算的第三个主要部分。在数据中心存储中,存在两个主要选项:闪存和磁盘。以固态硬盘或SSD为代表的闪存是高性能计算工作负载的首选,因为需要高带宽和低延迟的快速数据访问。另一方面,磁盘(硬盘驱动器 - HDD)提供更高的容量,但带宽较低且延迟较高。对于长期存储需求,磁盘仍然是首选技术。
数据中心内有几种存储架构:
直接附加存储(DAS) - 存储直接连接到服务器,只有该服务器可以访问该存储。
存储区域网络(SAN) - 允许多个服务器访问池存储的网络。
网络附加存储(NAS) - 连接到网络的存储
软件定义存储(SDS) - 一个虚拟化层,可汇集物理存储,提供额外的灵活性和可扩展存储。
4. 其他关键组件
为了简单起见,罗列一下数据中心的其他关键组件:
4.1 服务器
服务器将CPU、GPU、网络、内存和冷却功能集成到一个单元中。如下数据较旧但市场变化不大。
原始设计制造商(ODM)负责产品的设计和制造。然后OEM购买该硬件,并专注于产品的销售、营销和支持。最近你可能听说过SMCI这家爆红的公司,它主要是OEM,但也从事一些ODM工作。他们是英伟达的重要OEM,所以也跟着在去年爆发式增长。
4.2 电源管理/冷却
据估计,数据中心50-60%的成本来自计算、网络和存储。另外40-50%来自电力、制冷、安防、运营商、建筑、房地产等。
这40-50%中的最大开支用于电源管理,包括配电、发电机和不间断电源系统。这里的领导企业是施耐德电气、ABB、伊顿和西门子等大型工业公司。这是一张很好的可视化图表(下图)。
数据中心冷却包括冷水机组、机房空调(CRAC)、机房空气处理器(CRAH)和HVAC装置。市场领导者包括Vertiv、Stulz、施耐德电气和Airedale International。
4.3 运营商
运营商是为其他公司构建、管理和托管物理服务器的第三方公司。一种流行的模式是托管,如Equinix为企业提供放置服务器和网络设备的空间。这里有一个很好的可视化图。
4.4 建筑/房地产/电力/安防
这几个部分是数据中心必要的物理组成。必须购买和开发土地,使用大量电力。此外必须确保高度安全,因为它们包含世界上最重要的信息。
5. 小结
最后,数据中心业务是投资者参与AI大潮的一种很好方式。由于客户集中度和进入壁垒,数据中心业务更适合大型上市公司。
投资数据中心有很多种方式:半导体、网络、存储、云提供商(投资于需求而不是供应)、房地产、电力、电源管理和冷却。所有这些领域都可能受益于计算需求的增长。投资者如何投资,取决于自己对某个专业领域的熟悉程度。
Coeus Capital Research ,See Us,看见全球资本市场!
觉得好看,点个赞和在看
热门跟贴