哈喽,大家好,今天小睿这篇评论,主要来分析智算基础设施交付标准,用好算力的核心门道
最近这俩月,不管是互联网公司还是制造企业,都在扎堆搞大模型,不少企业一口气买了几百上千张 GPU,结果训练到一半就崩了。
后来才发现,不是算力不够,是没搞懂智算基础设施的交付标准,白白浪费了钱和时间。
之前大家都把注意力放在模型算法上,很少有人关注智算基础设施的交付问题,现在这个问题已经成了企业智能化转型的卡点。
传统 IT 基础设施的核心是稳定兼容,而智算基础设施的核心是性能与效率,这是 IBM 人工智能基础设施报告里提到的内容。
12 月 15 日,工信部发布《算力互联互通行动计划》,明确提到智算基础设施是算力生命体,是一套算力网络体系,不是简单的服务器堆叠。
12 月 8 日,“疆算入渝” 工程的中国移动 — 阿里云智算中心项目开工,同时中国移动和阿里云联合向重庆数字资源集团、重庆长安汽车交付了国产算力 2000 卡集群。
这个集群在搭建时,没有直接堆叠服务器,而是先做了算力节点的均衡规划,避免了单节点性能失衡的问题。
智算集群的交付,是保障后续稳定运行的关键,需要从硬件到性能逐项验证。12 月 3 日,中国信通院发布《智算集群交付验收白皮书》,明确了三类核心验收标准。
第一类是硬件一致性与健康性,验收时要核对 CPU 的型号、核心数,GPU 的型号、显存、驱动版本,存储的读写带宽,以及网络的光模块状态。
攀枝花川滇智算中心在交付前,核对了所有 GPU 的驱动版本,确保所有节点的 GPU 驱动统一。
第二类是性能与稳定性验证,需要进行 72 小时的连续压力测试,比如用 NVIDIA DCGM 做 GPU 稳定性测试。
这个智算中心在交付前,用NVIDIA Air 数字孪生仿真工具,搭建了和实际集群一致的数字模型,提前发现了 12 个光模块的光功率衰减问题,更换光模块后,后续的测试没有出现网络故障。
第三类是通信网络验证,需要运行 all-to-all 测试,检查链路的误码率、丢包率。“疆算入渝” 交付的 2000 卡集群,在验收时运行了 all-to-all 测试,确保服务器之间的协同通信稳定。
随着大模型的参数越来越大,算力需求持续增长,智算基础设施的交付标准也在不断更新。
工信部的《算力互联互通行动计划》提出,2025 年要完成算力互联互通的试验验证,实现公共算力资源标准化互联。
12 月 15 日,攀枝花川滇智算中心点亮,这个智算中心采用了液冷系统,PUE 降至 1.2 以下,符合绿色智算中心的交付要求。
同时,这个智算中心搭建了算力池化平台,将 GPU 利用率从传统的 18% 提升至 62%。
另外,跨区域的算力交付也成了新的方向,“疆算入渝” 的 2000 卡集群,就是跨区域交付的算力资源,后续可以通过算力互联互通平台,实现重庆和新疆的算力调度。
智算基础设施的交付标准,是用好算力的核心前提。随着相关规范的不断完善,以及跨区域算力协同的推进,企业能更顺畅地搭建智算集群,推动大模型和人工智能应用的落地。
热门跟贴