阿里云采用以太网取代英伟达NVlink，实现1.5万个GPU互连！|gpu|主机|交换机|以太网|端口|英伟达|阿里云|阿里巴巴集团

阿里云资深技术专家,网络研究团队负责人翟恩南通过GitHub分享了他的研究论文，揭示了阿里云服务提供商为其数据中心设计的用于大型语言模型（LLM）训练的架构。这份PDF文档题为《Alibaba HPN: A Data Center Network for Large Language Model Training》，详细介绍了阿里巴巴如何使用以太网使其15,000个GPU之间实现相互通信。

一般的云计算产生的都是稳定但较小的数据流，速度低于10 Gbps。而LLM训练则会周期性地产生高达400 Gbps的数据突发流量。根据该论文，这种LLM训练的特点使得传统数据中心常用的负载均衡方案——等价多路径（ECMP）容易出现哈希极化问题，导致流量分配不均等问题。

为避免这种情况，翟恩南和他的团队开发了高性能网络（HPN），采用了“2级双平面架构”，减少了可能出现ECMP问题的次数，同时让系统“能够精确选择能够承载大流量的网络路径”。HPN还使用了ToR（Top of Rack)）交换机，使它们能够相互备份。这些交换机是LLM训练中最常见的单点故障，需要GPU同步完成迭代。

每个主机 8 个 GPU，每个数据中心 1,875 个主机

阿里云将其数据中心划分为主机，每个主机配备八个GPU。每个GPU都有其网络接口卡（NIC），配备两个端口，每个GPU-NIC系统称为通道(rail)。主机还配备一个额外的NIC以连接到后端网络。每个通道分别连接到两个不同的ToR交换机，确保即使一个交换机故障也不会影响整个主机。

尽管放弃了用于主机间通信的NVlink，阿里云仍然在主机内网络中使用了Nvidia的专有技术，因为主机内GPU之间的通信需要更大的带宽。然而，由于通道之间的通信速度较慢，每歌主机提供的“专用400 Gbps RDMA网络吞吐量，总带宽达到3.2 Tbps”，足以最大化PCIe Gen5x16显卡的带宽。

阿里云还使用了一款51.2 Tb/sec的以太网单芯片ToR交换机，因为多芯片解决方案比单芯片交换机不稳定，故障率高四倍。然而，这些交换机运行时发热量大，市面上没有合适的散热器能防止它们因过热而关闭。因此，阿里自创了一种新的解决方案，即创建一个以更多支柱为中心的均热板散热器，以更有效地传输热能。

翟恩南和他的团队将在今年8月于澳大利亚悉尼举行的SIGCOMM（数据通信特别兴趣小组）会议上展示他们的工作。包括AMD、Intel、Google和Microsoft在内的多家公司都对这个项目感兴趣，主要原因是这些公司联手创建了Ultra Accelerator Link——一种旨在与NVlink竞争的开放标准互连集成系统。尤其是阿里云已经使用HPN超过八个月，这意味着该技术已经经过了实际验证。

然而，HPN仍存在一些缺点，最大的缺点是其复杂的布线结构。每个主机有九个NIC，每个NIC连接到两个不同的ToR交换机，这增加了插孔和端口混淆的可能性。尽管如此，这项技术据称比NVlink更经济，从而使任何建立数据中心的机构都能在设置成本上节省大量资金（甚至可能使其避免使用Nvidia技术，特别是在中美芯片战中受到制裁的公司）。