智东西
作者 程茜
编辑 漠影
智东西12月13日报道,今天,国产“算力黑马”之一英博数科亮出了英博云全系产品、服务升级成果,可以概括为一大标准+高效益、多样化的GPU智算产品与服务。
一大标准指的是企业在成本效率、资源利用等维度的成本评估框架——“单位有效算力成本”,这可以成为企业评估计算资源实际效率的参考,也为智算行业的透明化、高效化和可持续化提供了可行的路径。
高效益、多样化的GPU智算产品与服务,包括面向万卡集群大规模训练需求的智算中心建设运维、能满足弹性算力需求的GPU容器服务、评估关键指标的先进算力实验室、联合产业上下游的产业孵化器四大维度。
从评估标准、算力服务到科学评估服务,英博数科作为鸿博股份的全资子公司,承载着集团科技专项发展的重任,并已经在智算行业的加速变革下形成了全面的业务支撑。
大模型产业发展至今,从最初ChatGPT爆火,到如今AI应用加速落地,图片、视频、3D等多模态模型涌现,再到2024年临近尾声,OpenAI、谷歌、亚马逊、Meta纷纷亮出年末大招,又在大模型掀起新热潮,都将这一产业的竞争推向新的高度。
在这之中,算力、算法、数据三驾马车并驾齐驱之际,算力层面的企业需求正在发生变化:从单纯考量算力规模转移到如何用好算力、充分释放算力的价值,这对算力提供商提出了更为严峻的考验。
在此背景下,智东西等媒体在发布会前期,与鸿博股份CFO兼英博数科CEO浦威、英博数科CTO李少鹏、英博数科副总裁宋琛、英博数科副总裁秦伟俊进行了深入交流,从英博云的新发布出发,探寻智能算力产业的高效发展之路。
一、从基础模型到AI应用,智算产业三大趋势凸显
算力作为数据处理和算法执行的关键驱动力,今年以来,业界的关注焦点也在发生变化。
从算力提供方以及企业需求方来看,目前有三大明显的趋势:
首先,通用大模型训练算力集群从千卡移向万卡。
此前被视为大模型“金科玉律”的Scaling Law发展正在放缓成为业界热议的焦点,综合来看,尽管预训练有放缓趋势,但正如李少鹏所言,相同算法、相同架构条件下,模型规模与性能表现往往是成正比的,因此“从第一性原理来看,Scaling law不会失效”。在一定阶段内,算力需求的持续增长仍毋庸置疑。
再看通用大模型的参数量发展,已经从千亿级向万亿级迈进,随着硬件技术的进阶,使得构建万卡集群具备可行性。海外GPT-4大模型需要用25000张A100 GPU训100天、Meta推出2个24576张H100集群、马斯克曾自曝新版Grok 3训练用了10万张H100 GPU……
可以说,未来做通用模型,万卡级别已成必备门槛。
其次,垂直大模型训练算力使用从定量移向弹性。
不同于通用模型,垂直模型业务往往具有较强时效性和不确定性,以金融行业的风险预测为例,市场波动频繁才是其高频使用的场景,市场相对稳定其算力需求相对较低。
因此,其算力分配的规模和频率可能会随时间、业务场景而变化,定量的算力配置难以灵活应对这种变化。
而弹性算力模式的供给,既能让企业根据实际训练需求动态调整算力资源,在训练任务低谷期减少算力租用,避免不必要的成本支出;在高峰期则能快速扩充算力,确保训练任务按时完成,从而在高效利用算力资源的同时控制成本。
最后,算力需求正从训练转向推理。
大模型加速落地应用已经成为共识,其应用场景已经从科研维度向医疗、金融、交通等行业扩展,而这些实际场景中,大模型推理阶段的算力需求更为突出。
在业务端,AI助手、聊天机器人等需要快速响应客户请求,并实时对大量传感器数据进行处理、计算,以支撑其做出准确、科学的决策反馈。
但鲜明的产业趋势背后,对算力提供方提出的挑战也不可小觑。
构建万卡智算集群,需要解决硬件、软件等诸多挑战。如大量加速卡之间的高速互联、稳定可靠的硬件系统、具备容错能力的软件架构、有效的故障检测机制、优化和适配的训练算法、提高能源利用效率……
同时,弹性算力为算力提供商的技术积淀提出了更高要求,其需要整合云计算、虚拟化、容器、异构计算等多种技术,同时要兼顾数据管理、传输,在如此复杂的系统架构下完成运维和管理。
最后推理阶段的算力要求最直观的就是——响应要快,不同于训练阶段,推理阶段用户对延迟的容忍度更低,需要在短时间内得到响应,因此需要算力集群能通过提升网络带宽和存储系统的性能,以兼顾数据的快速传输、数据安全等。
因此,算力提供方如何提供更好用的算力、企业如何选择合适的算力,成为横亘在二者之间的鸿沟。
二、算力高效利用迫在眉睫,率先定义“单位有效算力成本”
目前,尽管万卡集群的建设正高歌猛进,各家都亮出了弹性算力提供方案,但企业应该如何选择这件事,尚未得到解决。
从企业端的需求来看,当大模型走向千行百业,企业选购算力的重点也随之转移,从更注重算力规模到算力的有效利用率。
那么,业界是否有直观的数据指标,能将这一评估标准直接呈现出来,以供企业能快速准确的选到高性能、性价比的方案?答案显然是还没有。
浦威做了一个形象的比喻,就像在高速路上开车载荷货物,只有车的马力跑足、货物装满,才能把实际支出的“算力”充分利用起来。 在此背景下,英博数科提出了一个定义“单位有效算力成本”的新标准:
具体来看,这一公式的分子是设备成本、机电成本、运维成本组成的算力投入成本,分母是装机算力、卡可用率、卡利用率及模型算力利用率组成的有效计算能力,通过这两个参数的系统比较,得出单位有效算力的成本。
李少鹏进一步解释说,这一标准制定背后,他们综合考虑了成本、实际装机算力、训练过程折损、模型框架选择、模型训练的时间长度和效率整个链条。
其中,算力投入成本中采购服务器的设备成本是固定的,此外智算中心的日常使用需要企业支付机房租赁以及电力的费用,同时需要人力运营、维护,避免其出现故障,因此,最终成本源头就组成了这三块。
分母指的就是企业得到的有效算力,由于装机算力即设备厂商标定的额定算力会因为各种因素被折损。
在运维技术或者条件不完善的情况下,卡会存在很高的故障概率,也就是说假设装机算力达到1000P,但实际可用的算力可能只有900P。
卡利用率指的就是GPU卡真正为企业所用的效率,正如前文所述,垂直业务场景中,对GPU算力的需求并不是稳定且持续的,因此在非业务场景下GPU卡会空闲下来。
最后是模型算力利用率,这是针对GPU做大模型训练和推理的重要指标,其是实际有效利用算力资源与所提供总算力资源之间的比例关系。
这四大关键要素相乘作为整体的分母,企业的算力投入成本相加作为分子,就将“单位有效算力成本”这件事评估清楚了。
回过头来看,当下企业关注应用算力效率问题这件事,其实并不是一个新鲜话题,相关的讨论也异常火热,目前从相关标准的讨论焦点来看,机房算力、运营、网络、存储、环境等问题的分析非常多,却缺少一个逻辑链将这些因素串联起来。
英博数科为什么做到了?浦威点出了问题的关键——因为英博数科将这一条链路端到端经历过。从智算中心建设、机房选型到集群建设、交付,到模型训练等环节,都已经呈现在其业务体系中。
不论从成本还是效率来看,算力的高效利用都迫在眉睫,“如何用好算力”在当下更为关键。站到算力产业新的发展节点,英博数科要在“提高算力有效利用率”上做文章。
而基于上面这一标准,当算力需求端和供给端形成共识,这是算力产业良性发展的前提。李少鹏补充说,企业可以根据这一标准快速估算自己的成本以及对应的需求,从而找到适合的方案。
因此,英博数科高效益、多样化的智算产品、服务方案就应运而生了。
三、高效益、多样化智算产品+服务,释放更多有效算力
“单位有效算力成本”新标准,已经成为英博数科产品与服务体系的基准。
今天,英博数科推出英博云——高效益、多样化的GPU智算产品与服务,成为大模型智能水平进阶以及落地应用的重要基础设施。
在此之上,其产品包括面向万卡集群大规模训练需求的智算中心建设运维、能满足弹性算力需求的GPU容器服务、评估关键指标的先进算力实验室、联合产业上下游的产业孵化器四大业务。
从直接的算力提供方案来看,宋琛提到英博数科关注的两点,一方面是对大模型训练本身有集群规模建设的头部大模型客户,其会基于本身的集群建设和运维经验,提供量身定制的集群选型、建设、运维到整体解决方案;另一方面是,对中小型客户的弹性算力需求,其推出了容器云服务。
其中,智算中心建设运维就是面向万卡集群的大规模训练需求,英博云会为企业提供自研的高性能并行存储解决方案、硬件测评和检测体系、系统运维和硬件维修体系、细粒度的集群监控和故障自动化恢复体系、算力调度平台。
做万卡甚至十万卡规模的集群,需要将所有卡组在一张计算网中,涉及整体的设备、交换机、光模块、光纤选型,对于非AI基建领域的专业玩家挑战很大,而这正是英博数科技术积累发挥优势的机遇。
GPU容器服务可以满足弹性算力需求,包括以VCluster形式提供GPU和CPU资源混合的弹性K8S集群服务、支持SSH和Kubectl管理操作、秒级别的容器启停和计费粒度、企业级并行存储服务、提供内网预定义场景镜像仓库、常用模型库、常用数据集等数据源服务等。
容器云的难点在于,需要精准分配和管理算力资源,以适应企业进行大模型训练和推理不同阶段的算力需求,且需兼顾数据的高效存储、管理以及高效的网络通信、高效的并行和分布式训练等。而英博云的产品将面向客户提供按需使用的算力,甚至可以精确到按小时、按分钟计费,按CPU任务或GPU任务等,因“单位有效算力成本”的标准之下,企业的算力成本也会更为可控。
产品之外,服务体系也是链接企业需求与算力供应形成科学互动的关键,也就是英博数科的算力实验室扮演的角色。
宋琛谈道,算力实验室聚焦的领域有两个,测评市面上的主流算力卡,以及测评和适配国产算力卡并进行异构算力平台开发工作。
先进算力实验室围绕硬件评测、软件评测以及行业服务展开工作,为企业算力基础设施的升级与优化提供前瞻先进、切实可行的建议。比如在硬件评测方面,实验室会对GPU、交换机、光模块、并行存储等进行严格测试,确保设备性能符合高标准;在软件评测方面,围绕基座模型、训练框架、微调框架、推理框架等,为智能算力的优化提供全方位支持。通过提供行业标准制定和定制化服务,先进算力实验室会帮助企业在智能算力领域不断突破创新。
投资层面,英博云正在联合AI产业上下游,探索算力组合投资新模式,宋琛提到了产业孵化器的形式,英博数科会对AI应用领域的新兴创企,提供资金、算力、人才培养等帮助。
综上所述,英博云此次的智算产品与服务升级,集万卡集群构建、算力提供方式、评估体系于一体,将智能算力服务的供应体系串联了起来。
想要做到这些非一日之功,这都得益于这家国产“算力黑马”深厚的技术积淀与商业化经验。
英博数科的核心成员出身清华、北大等名校及头部互联网、AI与云计算企业。
就在上周,英博数科智算中心建设运维解决方案已在京能项目落地,据悉,英博数科在智算中心建设运维方面拥有的独特优势,成为推动京能项目持续进展的核心力量。
这些已经成为其面向智算产业变革的行业浪潮之下,打造行业护城河的重要支撑。
如今,算力在AI产业中的地位举足轻重,现下的产业命题正是如何紧跟大模型产业的发展趋势,使得算力在企业之间高效流转起来,英博数科的战略升级,使得其成为当下这一产业链中算力赋能者。
结语:算力先锋,AI全链进化的强劲引擎
随着AI技术不断向纵深拓展,从基础模型的构建到复杂算法的训练与优化,每一个环节都离不开强大算力的支撑。
英博数科在算力基础设施建设方面投入巨大且已经成果斐然,此次产品与服务的全面升级,也是其面向算力产业变革的趋势下交出的最新答卷。
在AI应用加速落地的当下,算力基础设施提供商正与大模型玩家、企业应用方形成合力,为AI大规模应用落地不断注入新动力。
热门跟贴