在当前算力热的形势下,其实带来很多概念的迷惑,也出现诸多的新概念,比如算力流动、算力并网、算力调度、算力网、算力互联网……这些概念的流行给了我们一种美好的期待,未来算力像用水、用电、用气一样随处可得。

打开网易新闻 查看精彩图片

国家信息中心信息化和产业发展部主任 单志广

算力是需要和产业、应用场景紧密结合的,目前“算力热”背景下大众的叙事逻辑出现了一些非专业化的倾向,应该尽量避免。近日,在第六届中国超级算力大会ChinaSC2024上,国家信息中心信息化和产业发展部主任单志广做了“关于‘算力网’和‘算力网络’的几点粗浅思考”的报告。从学术严谨性角度提出了几大常识性断言,并从计算机网络和计算机系统的专业研究视角做了冷思考。

关于“算力”的常识性断言

在一次关于算力的交流会中,单志广与某地级市运营商负责人沟通时,对方恍然大悟:“第一次知道算力是不可流动的!”这也触发了单志广的思考,从专业技术的角度来讲,有些术语上必须明确厘清和界定的。为此,他提出了几大常识性的断言。

断言1

物理上,算力是不可流动的。

算力,通俗讲就是计算能力,是指对数据的处理能力。算力存在于手机、计算机、服务器、机器人、无人驾驶汽车、数据中心、超算中心和各类智能终端等设施,其核心是CPU、GPU、FPGA、ASIC等各类计算芯片,由计算机、服务器、高性能计算集群和承载。也就是说,算力本身是固定在算力中心的,物理上是不可移动的!算力不可能沿着计算机网络进行流动!“算力流动”可能是一种比喻,但不是客观事实!不是严谨的科学术语,无法在工程上实现。

按照应用和功能特性,算力可分为基础算力、智能算力、超算算力三类:

基础算力(通用算力,普算):主要基于CPU芯片,用于满足云计算和边缘计算等基础通用计算需求,如网购、打游戏等,基础算力无法高效处理大规模并行计算任务。

智能算力(智算):基于GPU、FPGA(现场可编程门阵列)、ASIC(专用集成电路芯片)等AI芯片的加速计算平台,主要用于人工智能的训练和推理计算,如语音、图像和视频的处理,智能算力是支撑人工智能技术发展的最优解。

超算算力(超算):由超级计算机等高性能计算集群提供64位高精度数值计算,主要用于科学计算与工程计算等尖端科学领域,对AI应用属于 “大材小用”。

近年来,我国算力结构随着应用需求的变化不断演化,基础算力占算力的比重由2016年的95%逐步下降,预计至2030年降至30%以下,智能算力占算力的比重则由2016年的3%提升至2030年达到70%左右,新增算力中智能算力将达到70-80%。超算算力在整体算力中的占比较为稳定,约为2%。

断言2

算力调度是一个缩语,

算力是不能“调度”、不能“并网”的。

有人认为使用算力可以做到像供水和供电一样方便,这在当前看太乐观了。

算力终究不是像水电一样具有同质性质的公共品,而且“算力网”与水网、电网的调度机制不同,水电调度的是资源,水网、电网通过联网系统调度的是水、电,而“算力网”不能通过计算机网络调度“算力”,“算力网”调动的不是算力,是调度的算力任务、算力的作业,即算力资源不可能沿着网络流动、通过网络向四处调度。

事实上是把数据(data)、任务/业务和作业(task/job)通过网络从异地调度到算力中心进行计算,本质上调度的是“计算任务”,而不是“算力”资源。

算力不能“流动”,算力无法“并网”,“算力调度”应准确地描述算力任务调度、算力作业调度,这应该是比较科学的。

断言3

算力设施不能直接产生经济。

从资料来看,算力已经成为衡量国家经济发展程度的重要指标。罗兰贝格统计的《世界各国人均算力水平估算结果》显示,发达程度越高的国家,其人均算力水平也就越高。IDC发布的《2021-2022全球计算力指数评估报告》显示,国家计算力指数与数字经济发展和GDP的走势呈现显著的正相关,从十五个重点国家的计算力指数看,算力指数平均每提高1个点,数字经济规模和GDP将分别增长3.5‰和1.8‰,预计该趋势在2025年将继续保持。

但是相关性不等于因果性!如果没有实际应用,没有真实需求,算力设施是带不来任何经济的!没有业务应用保障,算力设施就无法发挥应有作用,反而造成设施空置和能源空耗。

断言4

如果没有真实的应用需求牵引,

就没有必要对算力设施进行普遍互联。

目前,我国正在建设全国一体化算力体系,但这不是对所有的算力中心进行普遍的互联互通,而是对全国范围内的算力设施进行统筹规划、优化布局。

“算力网”应该是“算力互联网”的缩写,它本质上是算力的连接网络,如果没有真实的应用场景牵引,就没有对算力中心/设施进行普遍互联的需求。所以要避免形成算力网短期内需要普遍泛在互联的盛大误判。

目前,超算互联网是有价值的,因为超算设施主要用于科学计算与工程计算等尖端科学领域,具有公益性,非竞争性,国家级超算设施资源是有限的,应用往往具有互补性,可以通过互联实现资源的集约高效化利用。

而通用算力、智能算力中心/设施是非公益性的、市场竞争性的、利益互斥的,除了同一机构内部等特殊情况,基本上没有跨机构普遍互联的需求。应根据实际应用需求,对算力中心、设施进行分级、分域、分区的有限联通,从局域“网”向广域“网”有序拓展。

因此,所谓“算力网”不可能像通信骨干网、铁路网一样形成“几横几纵”的架构,也不可能形成所谓的“算力大通道”,“算力枢纽”严格意义上不是“算力资源枢纽”,而应该是“算力作业调度枢纽”。

“东数西算” 不是现在时,而是将来时

在分享了关于算力的几个常识性问题后,单志广就“东数西算”“算力网络”等话题,从概念内涵明晰、核心开放问题、工程实施路径等方面进行了学术争鸣与探讨。

“东数西算”工程面临的几大问题:概念明晰问题、效益精算问题、系统工程问题、长效发展问题。

从概念来看,“东数西算” 直观理解就是把东部的数据拿到西部进行计算。“东数西算”经常和“南水北调”“西气东输”“西电东送”相提并论。事实上,“东数西算”目前只是一种愿景,尚未真正实现;而且,它们在概念上具有本质差异,“南水北调”“西气东输”“西电东送”输送、调度的是水、气、电资源,而“东数西算”调度的是“数”等任务,而不是“算力”资源。

从目标上看,“东数西算”工程将主要是面向超算算力和智算算力进行任务调度和统筹,把东部地区的非实时算力需求以及大量生产生活数据输送到西部地区的数据中心进行存储、计算并反馈,适用于视频渲染、后台加工、离线分析、报表分析、日志分析、存储备份等延时不敏感的应用。

由于基础算力承载的多是工业互联网、远程驾驶、远程医疗、车联网、无人机、增强现实/虚拟现实、智慧家庭、电子游戏、短视频、即时通信、云桌面等实时性较强的延时敏感型应用需求,就目前的技术而言,具有实时性的本地数据无法搬到异地计算。

目前,“东数西算”工程是在“全国一体化算力体系”总体布局下的一个子概念、子模式,应在“全国一体化算力体系”总体布局下科学理解“东数西算”工程的定位和内涵。

全国一体化算力体系理论上包括所有“A数B算”,A、B可为东、西、南、北、中等各方位的任意排列组合,“东数西算”是其中一种情况,当前比较现实的主流情况还是“A数A算”。“东数西算”是对“东数东算”“西数西算” 等本地计算、近地计算的补充和完善,而不是相反!比如,目前智算的本地化、近地化已经成为主流,截至目前,北京市共布局建设了六座智能算力中心。

“东数西算”是在国家一体化算力体系建设完成,并且建立起成熟的算力任务调度系统和机制时,才能实现面向业务、服务质量(QoS)和成本要求的全网、实时/及时、动态优化调度,从而真正意义上实现“东数西算”。

从节能减排的角度来看,“东数细算”优势尽显。将数据中心建在西部还考虑到制冷系统能耗降低、东西部电价差大(0.2元/度电左右)、西部空间大且地价便宜等3个优势。

“东数西算”优势在于可以减小电能传输距离,降低电网功率传输损耗;此外,“东数西送”网络建设是一个将数据资源从分散到集中、从个体运营到国家统筹的过程,对国家治理、国防安全等,具有重要意义。

数据中心建在西部,PUE值可能会稍微低一点,如果每年要投资数千亿元建东数西算数据网络,把海量数据向西部传送,成本上是不是不合算?单纯从数据中心PUE值来看,“东数西算”的PUE节省空间难以抵消每年的建设成本。“东数西算”经济性还需要进一步精算。

同时,因数据类型多样、业务需求各异,要在业务层面上做好供需匹配和精准对接,解决谁的“东数”由谁来“西算”的问题。因此,我们应该提出一个核心开放性问题:如何确保“东数西算”的“数”和“算”供需匹配?到底需要建立的是“数”“算”匹配系统?还是算力任务调度系统?

“数”和“算”供需匹配是由政府牵头?还是市场主导?尚无合理解决方案。这种供需匹配可能需要在国家层面、省市级层面、企业层面、业务层面等多层级开展面向性能、价格、效益等多方面的测算,形成真正的应用需求供给和可持续的长效动力机制。

关于“算力网络”:统筹调度和运行机制问题

业界观点认为,“算力网络”是一种根据业务需求,将属于不同所有方的计算、存储等资源通过网络整合起来,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。通过网络分发服务节点的算力、存储、算法等资源信息,并结合网络信息(带宽、时延等),针对用户的不同类型需求,提供最佳的资源分配及网络连接方案,从而实现整网资源的最优化使用。

从资源匹配的角度看,算力网络和云网协同都可以做到将算力资源信息与网络资源信息匹配,以实现多类资源的联合优化。

由于数据资产和算力资源都具有持续性和动态性,要求人们必须实时摸清当前处于活跃状态的、正在被处理的数据资产和运行中的算力资源,以及处于静态环境里的被保存的数据资产和储备算力资源,由此才能实现最优化的算力资源调配,使得各类数据资产能够得到最为及时的分析处理。这需要对各类相关算力资产(硬件、软件等)“摸清家底”,以便更精准地进行能源资源的消耗调配和预储备,做到“心中有数”。

与电力系统完善的分级调度不同,“算力网络”的实现机制、调度机制和运行机制短期内尚无法建立。目前“算力网络”还处在概念提出期,还没有真正从实践上形成全域范围的统一解决方案。因此,又一个核心开放问题是:算力网络是一台集中式的超级计算机调度器?还是分算力中心/分领域的任务匹配器?还是一种分布式分级、分域的调度系统?目前尚无结论。

现在计算机内部的通信是纳秒级的,在广域网上通信是毫秒级的。目前“算力网”只能在毫秒级的层面上谈分布式计算,做到粗粒度的分布式任务的调度。

“东数西算”最核心关键的是,要具备实现算力统筹和智能调度的“算力网络”,能够在全国范围内,根据动态业务需求,在云、网、边之间实现按需分配和灵活调度计算、存储、网络等资源。

在单志广看来,从系统工程的角度,算力网络的核心是复杂巨系统的多资源联合优化,复杂巨系统的多目标联合优化,需要确保全国范围内、实时的、全网的、面向任务调度的高QoS(Quality of Service,服务质量)保证的资源调度。

总结:关于“算力热”的冷思考

目前,一些省份提出3年内省内算力规模发展超过100E FLOPS,增长几十倍。但事实上,是否存在真实需求值得商榷。算力需求是否会走“分久必合、合久必分”之路?从集中式、大型化、远程(异地)化思维转向分布式、中小型化、本地(近地)化?

如何实现算力供需平衡?避免算力“供大于求”“产能过剩”?如何避免“算力热”造成盲目建设、重复建设、铺张浪费、算力烂尾成为亟需考虑的问题。

打开网易新闻 查看精彩图片

因此,在此时,加快形成全国一体化算力体系,是事关全局的长远之策,具有重大战略意义。全国一体化算力体系本质上是一个规模庞大、跨区跨域、要素复杂、应用多样、不断演化的复杂巨系统,在实践层面仍面临一些重要挑战。需要准确理解和把握算力建设领域的关键问题,以务实、科学、专业的精神,系统谋划,有序渐进,切实推进算力经济高质高效持续发展。