破解“算力荒”难题万卡智算中心国产化迎来新春|ai|万卡智算中心|数据中心|算力荒|通信

通信世界网消息（CWW）在当今数字经济蓬勃发展的大背景下，AI大模型异军突起，这一现象极大地加速了人工智能领域的探索进程，与此同时，也催生了对智算中心的庞大需求。在国产化浪潮的推动下，万卡集群智算中心正面临着前所未有的全新发展机遇。

AI大模型推动智算中心进入万卡时代

3月25日，在中国发展高层论坛2024年年会上，中国国家数据局局长刘烈宏称，在中国，10亿参数规模以上的大模型数量已经超过100个。这些大模型无论是进行训练还是推理，都离不开强大的算力支持，在此情形下，智算中心就成为了满足此类需求的关键基础设施。据IDC发布的相关报告预测，到2026年时，中国智能算力规模将达到每秒十万亿亿次浮点计算的级别。

近年来，我国政府积极推进智算中心建设，出台多项相关政策。《新型数据中心发展三年行动计划(2021-2023年)》《“十四五”国家信息化规划》《“十四五”数字经济发展规划》等一系列政策将智算中心的发展作为重点规划发展对象。

数据显示，截至2023年底，全国名称中带有“智算中心”的项目已经达到了128个。仅2023年全年，全国建成或者正在建设的智算中心有20多座。2024年投运的智算中心，更是迎来新的高峰。

4月28日，中国移动智算中心（呼和浩特）这座全球运营商最大单体液冷智算中心宣布正式投产，该中心智能算力规模高达每秒670亿亿次浮点运算。

4月29日，琶洲算谷·沙溪智算中心正式对外运营，这是粤港澳大湾区首个服务大模型的智算中心，搭载了华为最新款自研AI训练芯片昇腾910B，建成算力100P，计划两年内扩展到300P。

6月25日，中国移动算力中心北京节点正式投入使用，部署近4000张AI加速卡，AI芯片国产化率33%，智能算力规模超1000P，这是电信运营商在北京建成的首个大规模训推一体智算中心。

7月26日，中贝合肥智算中心正式上线运行，这是安徽首家“低碳AI智算中心”，一期上线2200Flops@FP16算力已正式营运。

8月30日，建设完成并正式投产使用的中国移动智算中心（哈尔滨）更是超过以往任何的智算中心，成为全球运营商最大单集群智算中心。单集群拥有超过1.8万张AI加速卡，可提供6.9EFlops（每秒690亿亿次浮点运算）智能算力。

不仅如此，哈尔滨万卡集群是业内首个大规模应用融合存储的集群，也是首个落地中国移动原创智算网络全调度以太网（GSE1.0）的万卡集群，在现有以太网转发机制上优化负载均衡和拥塞授权控制机制，从而大幅提升GPU节点间通信效率，将通信占比缩短20%。

这一年，国内智算中心一跃跨入万卡时代。

智算中心国产化的新希望

近年来，随着部分国家对高端芯片的出口管制不断加强，国外厂商生产的高档GPU出口受到限制，使得我国在智算领域面临算力供应不足的风险。这种外部压力促使我国加快智算中心国产化的进程，以减少对国外芯片的依赖。近年来，国内已经涌现出了一些优秀的芯片厂商，如昇腾芯片、寒武纪等。

但万卡集群的构建并非简单的GPU卡堆叠，而是一项高度复杂的超级系统工程。通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起，大幅提升GPU节点间的通信效率，使其在瞬息之间便能处理海量数据与复杂计算任务。

当前万卡集群，尤其是基于国产技术栈的万卡集群还处于起步阶段。从整个技术栈来说，不仅需要在计算、存储、网络等方面实现横向协同，也需要在基础设施、芯片使能软件、框架层面实现纵向协同，涉及的技术领域之广，技术难度之大可想而知。中国移动研究院发布的《中国移动NICC新型智算中心技术体系白皮书》，面向大模型孵化，从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议，也为产业在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助，极大推动了国内智算产业的成熟。

据了解，哈尔滨万卡集群AI芯片国产化率100%，首次通过国产网络设备探索1.8万张智算卡单集群部署规模上限。从4月28日，中国移动智算中心（呼和浩特）国产化算力占比超85%，到哈尔滨万卡集群AI芯片国产化率100%，我国万卡集群智算中心国产化已经迈入从有到优的状态，与国外的差距也在不断缩小。

当前，国内各行业对智能算力的需求日益旺盛，尤其是在大模型训练、科学计算、智能安防等领域，更是对高性能计算有着迫切的需求。随着国内芯片制造、服务器生产、系统集成、软件开发等产业链各环节的企业之间的合作不断加强，在AI万物互联的时代，国产化的万卡智算中心将迎来更加广阔的市场前景。