通信世界网消息(CWW)在当今数字经济蓬勃发展的大背景下,AI大模型异军突起,这一现象极大地加速了人工智能领域的探索进程,与此同时,也催生了对智算中心的庞大需求。在国产化浪潮的推动下,万卡集群智算中心正面临着前所未有的全新发展机遇。

AI大模型推动智算中心进入万卡时代

3月25日,在中国发展高层论坛2024年年会上,中国国家数据局局长刘烈宏称,在中国,10亿参数规模以上的大模型数量已经超过100个。这些大模型无论是进行训练还是推理,都离不开强大的算力支持,在此情形下,智算中心就成为了满足此类需求的关键基础设施。据IDC发布的相关报告预测,到2026年时,中国智能算力规模将达到每秒十万亿亿次浮点计算的级别。

近年来,我国政府积极推进智算中心建设,出台多项相关政策。《新型数据中心发展三年行动计划(2021-2023年)》《“十四五”国家信息化规划》《“十四五”数字经济发展规划》等一系列政策将智算中心的发展作为重点规划发展对象。

数据显示,截至2023年底,全国名称中带有“智算中心”的项目已经达到了128个。仅2023年全年,全国建成或者正在建设的智算中心有20多座。2024年投运的智算中心,更是迎来新的高峰。

4月28日,中国移动智算中心(呼和浩特)这座全球运营商最大单体液冷智算中心宣布正式投产,该中心智能算力规模高达每秒670亿亿次浮点运算。

4月29日,琶洲算谷·沙溪智算中心正式对外运营,这是粤港澳大湾区首个服务大模型的智算中心,搭载了华为最新款自研AI训练芯片昇腾910B,建成算力100P,计划两年内扩展到300P。

6月25日,中国移动算力中心北京节点正式投入使用,部署近4000张AI加速卡,AI芯片国产化率33%,智能算力规模超1000P,这是电信运营商在北京建成的首个大规模训推一体智算中心。

7月26日,中贝合肥智算中心正式上线运行,这是安徽首家“低碳AI智算中心”,一期上线2200Flops@FP16算力已正式营运。

8月30日,建设完成并正式投产使用的中国移动智算中心(哈尔滨)更是超过以往任何的智算中心,成为全球运营商最大单集群智算中心。单集群拥有超过1.8万张AI加速卡,可提供6.9EFlops(每秒690亿亿次浮点运算)智能算力。

不仅如此,哈尔滨万卡集群是业内首个大规模应用融合存储的集群,也是首个落地中国移动原创智算网络全调度以太网(GSE1.0)的万卡集群,在现有以太网转发机制上优化负载均衡和拥塞授权控制机制,从而大幅提升GPU节点间通信效率,将通信占比缩短20%。

这一年,国内智算中心一跃跨入万卡时代。

智算中心国产化的新希望

近年来,随着部分国家对高端芯片的出口管制不断加强,国外厂商生产的高档GPU出口受到限制,使得我国在智算领域面临算力供应不足的风险。这种外部压力促使我国加快智算中心国产化的进程,以减少对国外芯片的依赖。近年来,国内已经涌现出了一些优秀的芯片厂商,如昇腾芯片、寒武纪等。

但万卡集群的构建并非简单的GPU卡堆叠,而是一项高度复杂的超级系统工程。通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起,大幅提升GPU节点间的通信效率,使其在瞬息之间便能处理海量数据与复杂计算任务。

当前万卡集群,尤其是基于国产技术栈的万卡集群还处于起步阶段。从整个技术栈来说,不仅需要在计算、存储、网络等方面实现横向协同,也需要在基础设施、芯片使能软件、框架层面实现纵向协同,涉及的技术领域之广,技术难度之大可想而知。中国移动研究院发布的《中国移动NICC新型智算中心技术体系白皮书》,面向大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,也为产业在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助,极大推动了国内智算产业的成熟。

据了解,哈尔滨万卡集群AI芯片国产化率100%,首次通过国产网络设备探索1.8万张智算卡单集群部署规模上限。从4月28日,中国移动智算中心(呼和浩特)国产化算力占比超85%,到哈尔滨万卡集群AI芯片国产化率100%,我国万卡集群智算中心国产化已经迈入从有到优的状态,与国外的差距也在不断缩小。

当前,国内各行业对智能算力的需求日益旺盛,尤其是在大模型训练、科学计算、智能安防等领域,更是对高性能计算有着迫切的需求。随着国内芯片制造、服务器生产、系统集成、软件开发等产业链各环节的企业之间的合作不断加强,在AI万物互联的时代,国产化的万卡智算中心将迎来更加广阔的市场前景。