阿里云资深技术专家,网络研究团队负责人翟恩南通过GitHub分享了他的研究论文,揭示了阿里云服务提供商为其数据中心设计的用于大型语言模型(LLM)训练的架构。这份PDF文档题为《Alibaba HPN: A Data Center Network for Large Language Model Training》,详细介绍了阿里巴巴如何使用以太网使其15,000个GPU之间实现相互通信。

打开网易新闻 查看精彩图片

一般的云计算产生的都是稳定但较小的数据流,速度低于10 Gbps。而LLM训练则会周期性地产生高达400 Gbps的数据突发流量。根据该论文,这种LLM训练的特点使得传统数据中心常用的负载均衡方案——等价多路径(ECMP)容易出现哈希极化问题,导致流量分配不均等问题。

为避免这种情况,翟恩南和他的团队开发了高性能网络(HPN),采用了“2级双平面架构”,减少了可能出现ECMP问题的次数,同时让系统“能够精确选择能够承载大流量的网络路径”。HPN还使用了ToR(Top of Rack))交换机,使它们能够相互备份。这些交换机是LLM训练中最常见的单点故障,需要GPU同步完成迭代。

每个主机 8 个 GPU,每个数据中心 1,875 个主机

阿里云将其数据中心划分为主机,每个主机配备八个GPU。每个GPU都有其网络接口卡(NIC),配备两个端口,每个GPU-NIC系统称为通道(rail)。主机还配备一个额外的NIC以连接到后端网络。每个通道分别连接到两个不同的ToR交换机,确保即使一个交换机故障也不会影响整个主机。

尽管放弃了用于主机间通信的NVlink,阿里云仍然在主机内网络中使用了Nvidia的专有技术,因为主机内GPU之间的通信需要更大的带宽。然而,由于通道之间的通信速度较慢,每歌主机提供的“专用400 Gbps RDMA网络吞吐量,总带宽达到3.2 Tbps”,足以最大化PCIe Gen5x16显卡的带宽。

阿里云还使用了一款51.2 Tb/sec的以太网单芯片ToR交换机,因为多芯片解决方案比单芯片交换机不稳定,故障率高四倍。然而,这些交换机运行时发热量大,市面上没有合适的散热器能防止它们因过热而关闭。因此,阿里自创了一种新的解决方案,即创建一个以更多支柱为中心的均热板散热器,以更有效地传输热能。

翟恩南和他的团队将在今年8月于澳大利亚悉尼举行的SIGCOMM(数据通信特别兴趣小组)会议上展示他们的工作。包括AMD、Intel、Google和Microsoft在内的多家公司都对这个项目感兴趣,主要原因是这些公司联手创建了Ultra Accelerator Link——一种旨在与NVlink竞争的开放标准互连集成系统。尤其是阿里云已经使用HPN超过八个月,这意味着该技术已经经过了实际验证。

然而,HPN仍存在一些缺点,最大的缺点是其复杂的布线结构。每个主机有九个NIC,每个NIC连接到两个不同的ToR交换机,这增加了插孔和端口混淆的可能性。尽管如此,这项技术据称比NVlink更经济,从而使任何建立数据中心的机构都能在设置成本上节省大量资金(甚至可能使其避免使用Nvidia技术,特别是在中美芯片战中受到制裁的公司)。

打开网易新闻 查看精彩图片