打开网易新闻 查看精彩图片

5月14日消息,阿里云AI高性能网络架构HPN 7.0的成果论文被SIGCOMM 2024收录,成为SIGCOMM历史上首篇关于AI智算集群网络架构的论文,这是一个值得关注的里程碑事件,标志着阿里云在AI智算集群网络架构方面的贡献获得了国际学术界的认可。SIGCOMM作为全球计算机通信网络领域的顶尖学术会议,其收录的论文往往预示着未来技术发展的趋势。值得注意的是,此前谷歌的Jupiter网络架构也曾被SIGCOMM收录并最终成为了业界的标杆。基于此,有专家预测,阿里云的HPN 7.0架构有潜力成为未来AI网络架构的新标准。此外,阿里云在本年度共有6篇论文被SIGCOMM收录,这进一步凸显了其在该领域的研究实力和影响力。

为了满足AI时代对于基础设施的严苛要求,特别是在处理大模型时,对AI基础设施提出了更高要求,阿里云为此推出了新一代的HPN 7.0网络架构。该架构专为应对AI时代对网络超大规模和超高稳定性的网络需求而研发。HPN 7.0创新性地设计了 “双上联+多轨+双平面”网络架构,加上阿里云自主研发的Solar-RDMA和ACCL通信库,这些技术的应用进一步确保了网络在高性能和高稳定性方面的表现,满足了AI应用对于网络互联的严格要求。

打开网易新闻 查看精彩图片

(HPN7.0架构:为AI设计的高性能网络集群)

阿里云自2023年9月起就开始对HPN 7.0架构展开大规模部署。与上一代架构相比,HPN 7.0在典型应用场景中的大模型训练性能实现了14.9%的显著提升,其智算网络整体稳定性得到大幅度提升。近期,阿里云发布的通义千问2.5版本大模型,其在中文性能上的表现已全面超越了GPT-4Turbo。这一成就正是基于HPN 7.0所构建的高性能网络集群实现的。

阿里云基础设施网络负责人蔡德忠表示:“阿里云从2017年开始探索端网融合的可预期网络,HPN7.0更进一步,把端网融合的体系结构从网络协议栈拓展到网络架构和通信库,实现了面向AI智算时代的全新网络集群架构创新。”

据悉,SIGCOMM于1977年创立,是计算机网络领域内最为顶级的国际学术会议。对于论文的录取标准极为严格,其录取率仅在10%至20%之间,因此被选中的研究成果有很高的可能性成为行业内的主流技术范式和标准。正如谷歌的数据中心网络架构Jupiter的论文被SIGCOMM收录一样,后来业成为了业界的经典参考架构。而阿里云的HPN 7.0架构此次获得SIGCOMM收录,标志着中国公司在AI高性能网络领域的研究成果首次被国际学术界认可,为全球AI网络基础设施的设计和实践提供了新的高性能标准。

阿里云在高性能网络技术领域已深耕多年,创新性地提出了端网融合的可预期网络技术体系,并在业界率先完成RDMA低延时网络技术,以及智算集群网络架构HPN 7.0等前沿技术的大规模应用。此外,阿里巴巴集团在网络研究领域的贡献也得到了国际认可,被评为AMiner全球十大网络研究机构之一,是榜单中唯一入选的中国科技企业。

阿里云HPN 7.0架构的SIGCOMM收录,不仅展示了中国公司在全球AI网络基础设施设计及实践方面的领先地位,也可能预示着AI网络技术发展的新方向。随着AI和大数据应用的不断扩展,高性能网络架构的重要性日益凸显,HPN 7.0架构的成功实践可能会为整个行业带来深远的影响。