打开网易新闻 查看精彩图片

虽然各大科技公司都在大力投入于数据中心 GPU,但这些 GPU 的使用寿命可能只有 1 年到 3 年,长短具体取决于它们的利用率。

打开网易新闻 查看精彩图片

正如 Alphabet 的一位总架构师特别指出,由于 GPU 承受 AI 训练和推理的繁重工作量,它们往往比其他部件更快地出现损耗

据称,在云服务提供商(CSP)运营的数据中心中,用于处理 AI 工作负载的 GPU 的利用率约为 60% 至 70%。

用 Alphabet 这位总架构师的话来说,按照这么高的利用率,GPU 通常只可以使用 1 年到 2 年,或长达 3 年。

虽然这种说法不能被认为 100% 准确,需要进一步确认,但它强调,面向 AI 和高性能计算应用的现代数据中心 GPU 消耗的功率为 700W 或更多,这对芯片来说是巨大的压力。

延长 GPU 使用寿命的一种方法是降低利用率。然而,降低利用率意味着 GPU 将逐渐失去价值,需要更长的时间才能收回资本,这对商业用途而言并不理想。

因此,大多数云服务提供商会让使用的 GPU 处于高利用率。

Meta 进行的一项研究描述了在由 16384 个英伟达 H100 80GB GPU 驱动的集群上训练其 Llama 3405B 模型。

在这项研究中,该集群的模型算力利用率(MFU)为 38%(使用 BF16),而在为期 54天的预训练快照中,在 419 次不可预见的中断中,148 次(30.1%)是由 GPU 故障(包括 NVLink 故障)引起的,72 次(17.2%)是由 HBM3 内存故障引起的。《 》

Meta 的这一研究结果对英伟达的 H100 GPU 相当有利。如果 GPU 及其内存按 Meta 的速率出现故障,年化故障率将达到 9% 左右,3 年后将达到 27% 左右。

然而在大量使用一年后,GPU 可能会更频繁地出现故障。

参考资料:https://www.trendforce.com/news/2024/10/31/news-datacenter-gpus-may-have-an-astonishingly-short-lifespan-of-only-1-to-3-years/

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片