打开网易新闻 查看精彩图片

从算力多元化、算力调度、应用生态、运营模式四个方面入手,提升智算中心利用率。

智算中心作为AI时代必备的算力基础设施,正承载着AI繁荣发展的数据运算需求。在智算中心建设如火如荼之际,如何提升智算中心利用率,成为亟待解决的问题。

智算中心利用率待提升

智算中心通过算力生产、聚合、调度和释放,面向政府、企业、高校和科研机构等提供普惠公共算力服务。智算中心在建设和运营过程中,面临算力使用率不高、算力结构不合理、应用生态不完善、运营模式不成熟等诸多问题。其中,算力使用率不高是智算中心面临的主要问题之一。

浪潮信息AI和HPC产品线总经理刘军表示,智算中心建设初期,由于应用生态不完善,算力规模与用户需求不匹配,导致算力空闲率较高。据浪潮人工智能研究院测算,我国智算中心平均算力使用率为30%左右,远低于大型数据中心的50%~60%的水平。

影响算力利用率的五大因素

算力利用率涉及软硬件、网络、训练策略及算力调度等多个层面。根据中国信通院发布的《智算基础设施发展研究报告(2024年)》,影响算力利用率的关键因素包括芯片存储量、算力损耗、“通信墙”即多卡互联与多机互联时面临的通信瓶颈等。

打开网易新闻 查看精彩图片

硬件配置方面,使用高性能计算节点,如专业的AI芯片或高端GPU,以确保单节点的计算能力最大化。同时,根据AI训推任务的需求,合理配置服务器的内存、存储和I/O性能。英伟达中国区技术总监表示,“GPU的算力利用率受到内存带宽和访存效率的影响。通过引入高带宽内存(HBM)和优化内存访问模式,可以显著提升GPU的计算效率。”

软件与算法方面,AI训练需匹配更高效的深度学习框架,另外,还要对算法进行并行化处理,以充分利用多核处理器及多GPU优势。华为相关人员表示,“当前算力利用率不足的问题,很大程度上源于软件层面的瓶颈。通过优化编译器、运行时的环境,以及算法本身,可以显著提高算力资源的使用效率。”

网络性能方面,在构建高性能计算集群时,选择合适的网络架构至关重要。有数据表明,网络的丢包率达到1%时,智算中心集群中的GPU利用率就会在原有基础之上下降 50%。目前一些智算集群就采用了高效的InfiniBand、RoCE网络,以充分满足AI大规模并行计算要求。阿里巴巴达摩院相关负责人表示, “在大规模分布式计算中,通信延迟是一个重要的瓶颈。基于RDMA的高速互联技术,以减少节点间的通信开销,从而提升整体算力利用率。”

在AI训练策略上,采用数据、模型或流水线并行等分布式训练方式,并采用更高效的资源管理与调度器,利用缓存机制及训前预热策略,通过调整及优化超参数等措施,也可以显著提升算力集群的性能和效率。微软亚洲研究院研究员表示,“模型训练过程中的算力利用率往往受到数据预处理和批量大小的影响。通过合理的数据预处理和动态调整批量大小,可以有效提高模型训练的效率。”

算力调度也是影响算力利用率的因素。腾讯云副总裁刘杉表示,提高算力利用率的关键在于精细化的资源管理。智能调度系统,可以根据任务特性和实时负载情况,动态调整资源分配,确保每个任务都能获得最佳的执行环境。” 清华大学计算机系教授陈文光表示,在大规模并行计算中,任务调度和负载均衡是非常重要的。

四大举措提升算力利用率

针对智算中心利用率不高的问题,业界专家建议从算力多元化、算力调度、应用生态、运营模式四个方面入手,提升智算中心利用率。

一是推动算力多元化,满足不同场景需求。智算中心应提供多元化的算力,满足不同行业、不同应用场景的需求。例如,针对图像处理、语音识别等场景,智算中心应提供高性能的GPU算力;针对自然语言处理、推荐系统等场景,智算中心应提供高效的CPU算力;针对自动驾驶、智能制造等场景,智算中心应提供高可靠的FPGA算力。

二是加强算力调度,实现算力资源高效利用。算力多元化要求智算中心具备异构算力融合能力。算力调度是算力资源效率最大化的路径。算力调度需要解决算力资源异构性、算力需求动态性、算力资源分布性等挑战。算力调度将算力资源在不同用户、不同应用、不同时间进行动态分配和优化,以提高算力资源利用率和降低算力成本。目前,地方政府、科研机构、算力企业等多方主体积极布局算力调度领域。据不完全统计,目前国内在建和已经建设的算力调度平台超过20个。

打开网易新闻 查看精彩图片

从算力多元化、算力调度、应用生态、运营模式四个方面入手,提升智算中心利用率。

三是完善应用生态,促进算力与数据、算法协同。应用生态是指基于智算中心提供的算力资源,构建面向不同行业、不同应用场景的算法模型和应用软件。完善的应用生态可以吸引更多用户使用智算中心提供的算力资源,从而提高算力利用率。

完善应用生态需要政府、企业、高校和科研机构等多方共同努力。政府应加强政策引导,鼓励企业、高校和科研机构基于智算中心开展算法模型和应用软件研发;企业应加强与高校和科研机构的合作,共同推动算法模型和应用软件的研发和应用;高校和科研机构应加强对人工智能领域人才的培养和引进,为算法模型和应用软件的研发提供人才支撑。

四是创新运营模式,实现算力资源可持续运营。智算中心建设投资大、运营成本高,如何实现算力资源的可持续运营是智算中心面临的又一挑战。创新运营模式,实现算力资源的共享、交易和增值服务,是提高算力利用率、降低运营成本的有效途径。

创新运营模式需要政府、企业、用户等多方共同参与。政府应加强政策引导,鼓励企业开展算力资源共享和交易;企业应加强与用户的合作,共同探索算力资源的共享、交易和增值服务模式;用户应积极参与算力资源的共享和交易,降低自身算力成本。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

采写:赵妍

图表:曙念

编辑:亮亮

指导:新文