许多人认为 Nvidia 的 AI 系统之所以占据主导地位,只是因为 GPU 或 CUDA 软件,其实 Nvidia 还拥有一系列技术,可用于在多个 GPU 和系统上扩展工作负载,其中包括其片上和封装互连、用于服务器或 POD 中 GPU 到 GPU 通信的 NVLink、用于扩展POD 之外的 Infiniband 以及用于连接到更广泛基础设施的以太网。
如今,微软、谷歌以及 Meta 等硅谷科技巨头正在成立新的行业组织 UALink(Ultra Accelerator Link)小组以推动数据中心 AI 加速器芯片的组件开发,通过开放标准对 Nvidia 进行反击,其他成员还包括 AMD、英特尔、惠普企业(HPE)、博通以及思科。
▍UALink 联盟及标准
本周四,UALink 宣布已联手开发一项新的行业标准,致力于推进数据中心内连接的大规模 AI 系统的高速和低延迟通信。AI 加速器包括从 GPU 到定制解决方案的各种芯片,用于加速 AI 模型的训练、微调和运行。
此外,UALink 将在第三季度成立一个联盟,即 UALink 联盟,以监督 UALink 规范未来的发展。UALink 和行业规范对于标准化下一代 AI 数据中心和实现的 AI 和机器学习、HPC 和云应用程序接口至关重要,该小组将制定一项规范,定义 AI 计算舱中加速器和交换机之间扩展通信的高速、低延迟互连。
提议标准的第一个版本 UALink 1.0 连接多达 1024 个 AI 加速器(仅限 GPU)。
据悉,UALink 1.0 基于包括 AMD 的 Infinity Fabric在内的开放标准 ,将允许在连接到 AI 加速器的内存之间进行直接加载和存储,并且与现有互连规范相比,通常可以提高速度并降低数据传输延迟。
UALink 的一大优势是,让业内所有人都有机会与 Nvidia 保持同步。Nvidia 现在有能力制造NVSwitch盒并将这些 NVSwitch 托盘放入Nvidia DGX GB200 NVL72等产品中。
Ultra Ethernet 仍将用于扩展到更多节点。博通可能会在 800Gbps 的 Thor 产品中推出一款早期的 Ultra Ethernet NIC,但仅根据规范标准化的程度,可能还需要一代才能获得完整的 UEC 支持。
UALink 1.0 将在同一时间向加入该联盟的公司提供,带宽更高的更新规范 UALink 1.1 将于 2024 年第四季度推出。
▍Nvidia 未加入,AWS 保持观望
NVLink 是加速系统中 GPU 和 CPU 处理器的高速互连,可将数据和计算转化为可操作的结果。
第五代 NVLink 极大地提高了大型多 GPU 系统的可扩展性。单个 NVIDIA Blackwell Tensor Core GPU 支持多达 18 个 NVLink 100 GB/s 连接,总带宽为 1.8 TB/s — 比上一代带宽高 2 倍,比 PCIe Gen5 带宽高 14 倍以上。GB200 NVL72 等服务器平台利用这项技术为当今最复杂的大型模型提供更高的可扩展性。
借助 NVLink Switch,NVLink 连接可以跨节点扩展,以创建无缝、高带宽、多节点 GPU 集群,从而有效地形成数据中心大小的 GPU。
NVLink Switch 可在一台 NVL72 中实现 130TB/s 的 GPU 带宽,以实现大型模型并行。具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算量,因此 NVL72 可以支持的 GPU 数量是单个八 GPU 系统的 9 倍。
据悉,目前 UALink 成员名单中没有 Nvidia,而 Nvidia 是迄今为止最大的 AI 加速器生产商,估计占据了80 % 至 95% 的市场份额。目前,Nvidia 提供其专有的互连技术,用于连接数据中心服务器内的 GPU。
在 Nvidia 最近的财季,数据中心销售额(包括其 AI 芯片的销售额)较去年同期增长了 400% 以上。如果 Nvidia继续保持目前增长势头,将在今年某个时候超越苹果成为全球第二大市值公司。因此,Nvidia 可能不太愿意支持基于竞争对手技术的规范。
此外,AWS 是唯一一家没有为 UALink 做出贡献的公有云巨头,AWS 正在逐步削减内部的各种加速器硬件工作,或是 AWS 希望牢牢控制云服务市场,或认为与 Nvidia 对抗没有多大战略意义。
英特尔今年的 AI 加速器销售额达数亿美元,可能意味着它只卖出几万台加速器,而 AMD 今年将销售数十亿美元的 MI300X,但这仍然远不及 Nvidai 的 AI 规模。
对于 AMD 和英特尔等公司来说,UALink 提供了一条复制 NVLink 和 NVSwitch 功能并与其他公司共享开发成果的途径。此外,拥有 UALink 允让博通这样的公司制造 UALink 交换机来帮助其他公司扩大规模。
AMD 数据中心解决方案总经理 Forrest Norrod 表示,行业需要一种能够快速推进的开放标准,这种开放标准允许多家公司为整个生态系统增加价值;行业需要一种标准,允许创新不受任何一家公司的束缚,快速推进。此外,首批 UALink 产品将在未来几年推出。
博通数据中心解决方案事业部副总裁 Jas Tremblay 表示,博通很荣幸成为 UALink 联盟的创始成员之一,得益于长期将大规模 AI 技术引入数据中心,支持开放的生态系统协作对于通过各种高速和低延迟解决方案实现网络扩展至关重要。
思科通用硬件集团执行副总裁 Martin Lund 表示,随着 AI 工作负载的规模和范围不断增长,超高性能互连变得越来越重要 ;思科将共同致力于开发 UALink,这将是一个可扩展且开放的解决方案,可帮助克服构建 AI 超级计算机的一些挑战。
此外,UALink 最大受益者可能是微软、谷歌以及 Meta,它们总计花费了数十亿美元购买 Nvidia GPU 来支持其云并训练其不断增长的 AI 模型,这些公司都希望摆脱对这家在 AI 硬件生态系统中占据主导地位的供应商的依赖。
谷歌拥有用于训练和运行 AI 模型的定制芯片、 TPU 和 Axion;亚马逊拥有多个 AI 芯片 系列;微软去年推出了Maia 和 Cobalt,加入竞争行列;Meta 正在完善自己的加速器阵容。
此外,微软及其密切合作伙伴 OpenAI 也计划投入 1000 亿美元建造超级计算机,用于训练 AI 模型,该超级计算机将配备未来版本的 Cobalt 和 Maia 芯片,这些芯片需要某种东西将它们连接起来,或是 UALink。
Newin 行业交流群
添加小助手微信加交流群
最新活动
1 、 AIEC 联盟在哈佛大学无锡校友会和全球华人常春藤校友联盟理事会的倡议和指导下成立,是直属于哈佛大学无锡校友会的分支机构。
2024 世界 AIEC 峰会即将在 6 月 29 日于无锡举办!首批合作组织已正式揭晓,新会员招募计划已正式启动,详情点击下方海报咨询:
2、如果你是 26 岁及以下具有开发、设计、营销三大核心能力之一的“当代嬉皮土”,这场 AdventureX 组织的线下黑客松活动不容错过!
这场今年最“硬核”的黑客松将在 7月 15~19 日在杭州良渚,你将在 5 天时间内组成2~4 人的小队,并在极限的时间内舍弃睡眠创造出你脑海中最疯狂的产品,或许下一个改变世界的产品就此诞生,访问: https://adventure-x.org 报名!
最新资讯
热门跟贴