公众号记得加星标⭐️,第一时间看推送不会错过。

“在汽车、飞机、人工智能工厂的设计领域……你必须做到完美,”英伟达首席执行官黄仁勋上个月在CNBC节目中表示。“原因在于,这其中牵涉到太多利益。”

汽车和飞机必须极其可靠,因为一旦发生故障,就会造成人员伤亡。在人工智能数据中心,系统故障虽然不会造成人员伤亡,但其经济影响却极其巨大,因为亚马逊、谷歌和微软都是市值万亿美元的公司。它们的客户依赖它们来驱动庞大的经济引擎,而一旦系统宕机,这些引擎就无法盈利。

例如,12月初,伊利诺伊州一个数据中心发生10小时的故障,导致全球货币和大宗商品市场(从黄金到石油再到利率)的交易暂停。

数据中心可靠性标准与策略

云服务提供商在全球运营着数百个巨型数据中心,这些数据中心通过数千英里的光纤连接在一起。它们是世界上规模最大、最复杂的计算机。

数据中心基础设施的设计旨在实现极高的可靠性,并提供多种选择。例如,谷歌提供的正常运行时间从 99.9%(每月最大停机时间为 43 分钟)到 99.999%(每月最大停机时间仅为 26 秒)不等。我的笔记本电脑崩溃的次数都比这多。如此高的可靠性是通过跨多个区域(数据中心)部署软件来实现的,该软件能够快速地在数据中心之间转移负载,从而避免单点故障。这需要投入一定的资源来实现冗余的并行计算和存储。如果您托管的是一个全球交易平台,那么这些投入是值得的。存储采用双副本设计,因此即使一个副本丢失或不可用,系统也能依靠另一个副本继续运行。

数据中心远不止是半导体设备那么简单。为了确保最高的可靠性,数据中心配备了冗余冷却系统。如果一套系统发生故障,另一套系统会立即接管。电力分配也采用了冗余设计,备用单元会在必要时启动。此外,如果电网断电,电池或发电机也会自动启动供电。

半导体可靠性的高层战略与其他数据中心部分类似:

  • 设计高可靠性的组件;

  • 设计组件和系统,以便及早发现故障迹象并优先修复;

  • 增加冗余,以便在运行过程中某个组件发生故障时,能够迅速识别出故障原因,并由备用组件接管。

数据中心可靠性的半导体架构策略

数据中心芯片的设计必须尽可能可靠,但故障仍然难以避免。因此,数据中心芯片和子系统需要采用容错架构。

数据中心拥有成千上万台相同的服务器、交换机等设备。如果一台服务器或机架出现故障,可以通过其他方式进行替换。

ECC:数据中心CPU使用ECC内存以提高可靠性。自HBM2以来,HBM内存就集成了片上ECC。HBM3则使用更强大的里德-所罗门码。HBM还具有冗余数据总线通道,因此如果在运行过程中出现通道故障,可以将其重新映射到备用功能通道。

网络冗余扩展:NVLink 是英伟达的超级竞争优势,它允许更大的 pod 规模,同时保持 GPU 之间极低的延迟。但为什么英伟达使用的是 NVLink72 而不是 64 呢?英伟达建议使用 64 个 GPU 运行,并保留 8 个作为备用(或处于待机状态,运行低优先级、可抢占式工作负载)。同样,虽然 64 个 GPU 只需要 16 个交换机,但 NVLink 却使用了 18 个交换机。在 NVLink 中,每个交换机都连接到每个 GPU。这不仅允许调节 GPU 之间的带宽,还意味着即使某个交换机发生故障,也可以在不影响性能的情况下进行映射。在 NVLink72 持续运行的情况下,可以热插拔故障的交换机或计算托架,从而恢复完整的冗余,实现最高的可靠性。

几个月前,SemiAnalysis 报道称,NVL72 背板的信号完整性问题(至少在当时)会导致数据错误,而这些错误可能需要数小时才能定位和修复。NVL72 的修复时间比上一代产品长一个数量级。随着电频率的提高以提升芯片性能,由于信号完整性问题,数据传输的可靠性会降低。为了利用光传输的更远传输距离来增大芯片尺寸,还需要通过切换到光传输来提高可靠性,因为光传输不存在串扰或电磁信号完整性问题。

横向扩展网络冗余:如今的横向扩展系统主要基于以太网,以太网采用数据包传输方式,并能确保数据包的重试和备用路由(如有需要)。每个数据包都会进行错误检查和数据有效载荷的纠正。快速生成树协议 (RSTP) 能够在几毫秒内将故障的主路径切换到备用路径。这种网络的鲁棒性非常高,但代价是延迟。尽管如此,目前所有数据中心仍然采用这种方式连接机架和设备。

光路开关:在去年12月的瑞银科技大会上,相干公司首席执行官吉姆·安德森表示:“我们非常喜欢OCS。” OCS即光路开关。谷歌率先开发了OCS技术,并将其应用于TPU超级芯片。光路开关能够在几毫秒内将数百路光纤输入重新路由到数百路光纤输出。这带来了诸多优势。其中一项优势是能够绕过故障芯片快速重新路由高带宽数据。

打开网易新闻 查看精彩图片

热插拔:如果可能的话,系统应该设计成模块化和热插拔的,这样如果需要更换某个部件,就可以快速、轻松地完成,并将中断降到最低。

半导体元件设计可靠性

与其他大多数半导体应用不同,机械工程对于数据中心的可靠性至关重要。如今,人工智能加速器采用封装形式,将多个 XPU 和 HBM 芯片集成在有机基板上的 CoWoS 中介层上,并通过焊接方式连接到印刷电路板 (PCB) 上。这种“三明治”结构中各元件之间材料和温度的差异,以及层间数千个键的相互作用,都可能导致物理连接出现翘曲和断裂的风险。

数据中心运行的某些方面对可靠性的要求较低:

工作温度:Nvidia Blackwell GPU 的最高工作温度为 85°C 结温(晶体管的温度)。AMD Epyc 处理器的典型最高工作温度为 95°C 结温,但可短暂达到 105°C 结温。这些温度远低于汽车级应用(最高可达 125°C 结温),原因有三:1)功耗随温度呈指数级增长;2)随着温度升高,可靠性下降——例如金属迁移;3)在数据中心,昂贵的冷却系统能够有效降低功耗并提高可靠性,因此具有经济可行性。

使用寿命:汽车的使用寿命通常为 10 年、15 年或 20 年。但数据中心的使用寿命要短得多。《华尔街日报》近期讨论了主要超大规模数据中心出于会计目的的预计使用寿命,其范围在 5 到 6 年之间。从这个意义上讲,数据中心就像 iPhone 一样。5 年或更长时间后,就会出现更好的产品,因此升级而不是继续运行旧技术更经济,尤其是在世界大部分地区电力供应有限的情况下。即使使用寿命很短,可靠性设计仍然至关重要,以确保在使用寿命期间的故障率尽可能低。

广泛的可靠性数据:另一方面,5 年的使用寿命意味着,当部署新的加速器/CPU/网络时,必须迅速将其投入运行。这就像 iPhone 的上线启动一样。

超大规模数据中心运营商想要最好的技术,但只有在有大量可靠性数据可用时才会部署。

对于每一种半导体元件,客户都希望看到广泛的可靠性和压力测试,从而实现极低的故障率(每十亿器件小时的故障次数)。这可能涉及在高温、高频率下对成千上万个器件进行数月的测试,成本高昂。

故障预测与隔离:但这还不够。客户需要片上遥测技术来追踪故障的先行指标,以便在设备发生故障之前主动更换设备。例如,在通信设备中,误码率 (BER) 的增加可能就是一个早期预警指标。

如果设备发生故障,它应该能够自我诊断并发出警报,以便快速定位并修复错误。如今在数据中心,追溯故障根源可能需要数小时。

数据中心供应商需要获取芯片的遥测数据,以便改进故障预测能力。此外,他们还需要故障分析专家来确定故障原因和具体故障所在,从而为提高可靠性的设计改进提供反馈,并调整固件设置以减少磨损和/或提高故障预测能力。

数据中心是当今半导体最大的市场。要想在这个市场中脱颖而出,你需要兼具高性能、低功耗和低成本。但如果没有高可靠性的架构、固件和设计,你就无法获得市场认可。

https://semiengineering.com/data-centers-need-high-reliability-semiconductors/

(来源:编译自semiengineering)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4286期内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐