AI浪潮之数据中心价值链解析|amd|交换机|分布式数据库|思科|服务器|浪潮|路由器|黄仁勋

AI的尽头是光伏，储能和电力”略有夸张，但算力和数据中心一定是AI的重要元素。

网友P图，请勿当真

当时黄仁勋用了夸张的方式举例，他真正想说的是，关注英伟达GPU，只有自家产品性能会一直进步。

在2024 年2月12日“世界政府峰会”上与阿联酋国务大臣Omar Sultan AlOlama最新对谈里，“当我们替换通用计算的基础设施时，请记住架构的性能将不断提高。你不能只想着要购买更多的计算机，你还必须假设，计算机的速度会越来越快。因此，你所需要的总量就不会这么多了。”

“否则，如果你只是假设计算机的速度永远不会变快，你可能会得出一个结论——我们需要 14 个不同的行星、3 个不同星系、4 个太阳为这一切提供燃料。”

因此，只有算力和超算中心才是确定事项。在超算中心升级前，先回顾

数据中心分为三大部分：

基础层面，半导体对数据中心提供了核心支持。
中间层面是数据中心本身，可以分为计算、网络和存储；这些都打包在服务器中。还有运行数据中心所需的技术如电力和冷却技术，以及数据中心的第三方运营商。
在云层面，面向客户提供各种技术服务。

建设数据中心所需的基础设施包括土地、建筑、变压器、电源管理和冷却技术。一些超大规模数据中心超过一百万平方英尺，大约有25个足球场。

黄仁勋此前估计，数据中心约50%成本用于基础设施，另外50%用于计算、网络和存储。所有这些设备都是为容纳计算和存储能力的服务器提供动力。

英伟达DGX A100 服务器

这些服务器、网络设备和存储器一起放在机架中。数据中心内有成百上千个这样的机架。数据中心就是这样一个由数千栋建筑物、内有无数计算机的数据链接支持着世界的线上运转。

试着分解一下数据中心这个庞大的产业链。

1，计算

1.1 计算基础知识

计算是指在服务器上运行应用程序所需的处理能力和内存。根据工作负载的类型，服务器使用不同类型的芯片，通常是CPU或GPU。CPU是计算机的中央处理器；它们擅长处理复杂的操作并充当软件的主要接口。GPU擅长并行处理，可以一次完成许多简单的操作。这就是为什么适合AI工作负载。

数据中心三大主要芯片供应商

其他类型的芯片占有率不高，如专用集成电路ASIC和FPGA。ASIC是针对特定工作负载的定制芯片，例如谷歌的AI加速芯片TPU。

从逻辑上讲，ASIC在云数据中心中得到更频繁使用，因为微小的效率提升可以为超大云企业带来显著的成本降低。FPGA可以重新配置以实现不同的操作。目前均在数据中心广泛使用，但未来前景广阔。

1.2 CPU市场

CPU市场历来由英特尔主导，AMD居第二。现在AMD以及来自Ampere、亚马逊、英伟达等公司基于Arm的CPU对英特尔发起更多挑战。CPU市场呈现如下两大趋势。

首先，AMD 一直从英特尔手中夺取x86处理器的份额。这在很大程度上要归功于苏姿丰的领导力。她于2014年接手AMD，过去十年中取得了卓越的成绩：EPYC数据中心CPU系列持续取得成功。英特尔也在尝试重塑业务，正在大力打造代工服务，希望夺回先进制程的制造能力。

其次，基于Arm的服务器在扩大市场份额

多年来，Arm一直是智能手机的首选架构。最近这种趋势也延续到了数据中心。

亚马逊率先于2018年发布了Graviton处理器。该处理器估计已增长到数据中心CPU出货量的3-4%左右。英伟达最近发布了其首款数据中心CPU：Grace系列芯片。微软等也在生产基于Arm的CPU。这种趋势对英特尔和AMD都不利。定制芯片的走向应该继续关注。

1.3 GPU市场

GPU市场目前由英伟达主导。数据中心GPU的主要竞争对手是AMD的MI300。AMD预计其数据中心GPU到2024年将产生3.5亿美元的收入。英特尔也提供数据中心GPU，分析师估计明年将贡献8.5亿美元的收入。

富国银行预计2025年英伟达GPU收入将达到460亿美元。将这些数据与AMD和英特尔比较，英伟达隐含市场份额为96-98%，2024年将下降至92-94%。

1.4 ASIC 市场 - AI加速器

GPU的另一个竞争对手是AI加速器，从长远来看，它可以从英伟达业务中抢食。最有可能的竞争来自大型科技公司，这四家超大云企业都有自己的AI加速器：

谷歌的张量处理单元(TPU)。TPU自2016年起开始生产，由博通(Broadcom)支持，台积电代工。
亚马逊：Trainium于2022年10月上市，Inferentia于2021年上市，由台积电代工。
Meta：元训练和推理加速器(MTIA)于2020年在台积电7奈米工艺上设计。
微软Maia于2023年发布，预计2024年上市，采用台积电5奈米工艺制造。

初创公司也可能带来挑战，尽管由于晶圆厂先进产能的局限，短期内似乎不太可能，但芯片初创企业会成为未来几年的热门风投目标。

2. 数据中心网络(Data Center Networking)

网络支持服务器、存储和应用之间的数据流。我们来谈谈网络的重要概念/技术，以太网与InfiniBand，以及主要参与者。

2.1 网络基础知识

三种最基本的网络技术是交换机、路由器和电缆，还有几种用于数据处理的芯片。

交换机连接服务器、存储和其他网络设备；它们确保设备之间的数据流。
路由器连接不同的网络和子网。当数据流入和流出数据中心时，路由器会处理数据流，使其到达正确的位置。

- 交换机促进同一网络内的通信。路由器提供与其他网络的连接。

- 交换机和路由器可以是以太网或InfiniBand(无限带宽)。

光纤和电缆：将路由器、交换机和数据中心连接到世界各地的物理电缆。

上述这些技术构成了数据中心网络的根本。不同的网络都通过LAN、MAN和WAN等网络拓扑技术进行组织，就不在这里讨论了。

数据中心网络的流行模型是脊叶模型(下图)：

每个机架的顶部都有交换机(叶交换机)。交换机各自连接到几个更大的连接网络的交换机。一个重要的概念是每片叶子都连接到每根脊柱。如果一台服务器出现故障，流量可以路由到其他服务器，不会中断服务。

服务器内也有网络的作用。例如在英伟达DGX A100中，8个GPU通过NV交换机聚在一起以分配计算。

最后需要谈一下InfiniBand与以太网这两种主要的网络技术。根本上说以太网速度较慢、成本较低且使用广泛。Infiniband更快更贵，在高性能计算占主导地位。

以太网是2000年代的主导网络技术。2010年代初，Infiniband超过以太网成为高性能计算的主导技术。随着高性能计算需求的增长，Infiniband的重要性上升。以太网仍是无所不在的网络标准，而在高性能计算领域，标准是Infiniband。InfiniBand通常用于连接多个服务器或者多个服务器和存储之间的连接。运行处理大量数据的工作负载如LLM时，就可以减少延迟。

2.2 网络市场趋势

网络设备市场共有三大领先厂商：思科、Arista和英伟达(收购了Mellanox)。有两个主要趋势：

(1)以太网领域的思科与Arista

过去十年来，Arista稳步从思科手中夺取份额，主要因为Arista对高性能计算云提供商的专注。Arista管理层表示，40%的收入来自“云和AI”巨头公司。像微软这样的大客户支撑了Arista飞速的发展，收入复合年增长率达32.3%。

(2)Infiniband与以太网

以太网几十年来一直是网络标准。Infiniband已经在高性能计算领域站稳了脚跟，在数据中心中很流行。目前的状况是，Infiniband和以太网都不完美，需要进一步发展才能争取成为AI的标准。近期由于Infiniband和英伟达的结合，使Infinibank有望成为标准。未来随着更多的定制芯片、定制系统架构和以太网的开发，最终结果还很难下定论。

2.3 英伟达网络

网络是英伟达在2023年的一块突破性业务。英伟达2020年收购了Infiniband网络的领导者Mellanox。现在看起来这是英伟达最神来一笔的收购案，因为现在Mellanox的网络业务规模是过去的数倍。

英伟达现在已经将网络集成到其产品作为一个集成平台在销售，例如前面展示的DGX超级计算机。这使得英伟达几乎垄断了数据中心GPU和InfiniBand网络。英伟达由此可以提供从软件到芯片的整个AI堆栈。

黄仁勋在电话会议谈及网络业务的成长时大致算了如下数字：计算和网络的计算部分销售额为119.4亿美元，同比增长4.24倍，网络部分的销售额为25.8亿美元，同比增长2.55倍。

英伟达最近还发布了专为AI以太网工作负载设计的Spectrum-X以太网平台(他们也看到了以太网的重要性）。以太网业务相对较小，却提供了另一个扩张途径。

2.4 网络芯片

首先一些术语：