虽然各大科技公司都在大力投入于数据中心 GPU,但这些 GPU 的使用寿命可能只有 1 年到 3 年,长短具体取决于它们的利用率。
正如 Alphabet 的一位总架构师特别指出,由于 GPU 承受 AI 训练和推理的繁重工作量,它们往往比其他部件更快地出现损耗。
据称,在云服务提供商(CSP)运营的数据中心中,用于处理 AI 工作负载的 GPU 的利用率约为 60% 至 70%。
用 Alphabet 这位总架构师的话来说,按照这么高的利用率,GPU 通常只可以使用 1 年到 2 年,或长达 3 年。
虽然这种说法不能被认为 100% 准确,需要进一步确认,但它强调,面向 AI 和高性能计算应用的现代数据中心 GPU 消耗的功率为 700W 或更多,这对芯片来说是巨大的压力。
延长 GPU 使用寿命的一种方法是降低利用率。然而,降低利用率意味着 GPU 将逐渐失去价值,需要更长的时间才能收回资本,这对商业用途而言并不理想。
因此,大多数云服务提供商会让使用的 GPU 处于高利用率。
Meta 进行的一项研究描述了在由 16384 个英伟达 H100 80GB GPU 驱动的集群上训练其 Llama 3405B 模型。
在这项研究中,该集群的模型算力利用率(MFU)为 38%(使用 BF16),而在为期 54天的预训练快照中,在 419 次不可预见的中断中,148 次(30.1%)是由 GPU 故障(包括 NVLink 故障)引起的,72 次(17.2%)是由 HBM3 内存故障引起的。《 》
Meta 的这一研究结果对英伟达的 H100 GPU 相当有利。如果 GPU 及其内存按 Meta 的速率出现故障,年化故障率将达到 9% 左右,3 年后将达到 27% 左右。
然而在大量使用一年后,GPU 可能会更频繁地出现故障。
参考资料:https://www.trendforce.com/news/2024/10/31/news-datacenter-gpus-may-have-an-astonishingly-short-lifespan-of-only-1-to-3-years/
热门跟贴