打开网易新闻 查看精彩图片

2024 年 5 月 15 日,阿里云成功入选超以太网联盟(UEC)技术咨询委员会,成为唯一的中国公司成员,将与微软、Meta、AMD、博通等其他 12 名成员,共同推进开放网络系统及核心技术的研发及标准制定,打造下一代AI网络基础设施。

打开网易新闻 查看精彩图片

在 AI 大模型时代,仅靠芯片性能提升已无法满足训练及推理的蓬勃算力需求,业界目光转向系统架构层面的创新。

2023 年 7 月,Linux 基金会发起成立开源组织——超以太网联盟 UEC(Ultra Ethernet Consortium),致力于打造面向 AI 时代的超大规模新型网络技术及系统。

与英伟达主导的 InfiniBand 网络体系不同,UEC 联盟希望通过开源开放的技术合作促进创新,因此也被业界类比为网络领域的苹果系统与安卓生态。

成立不到一年,UEC 已成为当下全球 AI 基础设施领域最受人关注、发展最迅速的技术联盟。

当前,UEC 建立了物理层、链路层、传输层、软件层等 8 个工作组,推进新兴网络技术研究;同时,联盟特设技术咨询委员会,负责制定技术路线图,把控核心技术及方向,协同推进各小组工作,并统筹所有技术提案及标准制定。

打开网易新闻 查看精彩图片

UEC 技术委员会是联盟中最核心的技术决策中心,只有技术实力过硬、对开源社区贡献大的会员机构才能入选。

UEC联盟技术委员会目前设有 13 席,包括 AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta、微软、甲骨文,以及最新投票选出的阿里云、Enfabrica、Marvell。

UEC 联盟主席梅茨欢迎阿里云等 3 位技术委员会新成员,他在邮件中表示,在技术委员会的推动和全体成员的努力下,UEC 联盟将很快迎来第一个里程碑。

在 UEC 联盟中,阿里云正牵头推进面向AI需求的网络性能提升项目等技术草案,并持续向成员分享阿里云最新的技术积累和实践。

同时,阿里云也是开放网络 SONiC 社区 7 个发起成员之一和技术委员会副主席单位。

阿里巴巴是 AMiner 全球十大网络研究机构中唯一的中国公司,在网络领域的技术创新和实践硕果累累,其中,阿里云在 AI 高性能网络的新突破备受关注。

阿里云 HPN7.0 争夺下一代 AI 网络架构标准

阿里云自研的智算集群网络架构 HPN7.0,使得大模型训练性能和系统稳定性大幅提升,成为国际顶会 SIGCOMM 历史首篇 AI 智算网络架构的论文,被认为是继谷歌 Jupiter 经典网络之后的 AI 网络架构新范式。

打开网易新闻 查看精彩图片

HPN 7.0 创新性地设计了“双上联+多轨+双平面”的网络架构,并自研 Solar-RDMA 和 ACCL 通信库,可实现网络的高性能和高稳定互联。

打开网易新闻 查看精彩图片

HPN7.0 架构:为 AI 设计的高性能网络集群

从 2023 年 9 月开始,HPN7.0 在阿里云展开大规模部署,大模型训练性能较上一代架构在典型场景下提升 14.9%,且大幅提高了智算网络整体稳定性。

前不久阿里云发布通义千问 2.5 版本大模型,中文性能全面赶超 GPT-4Turbo,就是基于 HPN7.0 高性能网络集群训练而成。

阿里云基础设施网络负责人蔡德忠介绍称:“阿里云从 2017 年开始探索端网融合的可预期网络,HPN7.0 更进一步,把端网融合的体系结构从网络协议栈拓展到网络架构和通信库,实现了面向AI智算时代的全新网络集群架构创新。”

据悉,始于 1977 年的 SIGCOMM 是计算机网络领域最顶级的国际学术会议,每年录取率在 10%~20% 之间,入选成果极有可能成为主流技术范式标准。

此前,谷歌传统数据中心网络 Jupiter 论文 SIGCOMM 收录,成为经典架构; 此次阿里云 HPN7.0 架构斩获 SIGCOMM 首篇 AI 高性能网络论文,则是中国公司首次为全球 AI 网络基础设施的设计及实践提供了全新高性能标准。

打开网易新闻 查看精彩图片