在AI时代,延迟对数据中心网络来说是一个日益重要的指标。对于AI训练而言,低延迟有助于确保训练集群中的所有图形处理单元(GPU)和节点得到有效利用,最大化减少闲置时间并提升整体训练效率。对于AI推理来说,低延迟更为关键,因为它需要实时或接近实时的响应。
随着GPU集群规模扩展到数百、数千甚至数百万个GPU,电力、空间和可用性的限制正迫使AI集群分布在多个城域和区域数据中心。"跨越扩展"这一术语现在正在进入词汇表,用来描述数据中心之间的AI网络连接;然而,这些数据中心的位置及其之间的距离都受到延迟的限制。
光纤与延迟
数据中心延迟的一个关键组成部分是光在光纤电缆中传播所需的时间。随着距离在城域、区域、长距离和海底网络中的增加,这成为越来越主要的因素,网络设备中的延迟变得微不足道。因此,这种光纤延迟是距离和每公里光纤延迟的函数。销售数据中心互联服务的网络运营商,如波长服务、暗光纤和管理光纤网络(MOFN),通过拥有最短的光纤路由来区别于竞争对手。
每公里光纤延迟是光纤折射率的函数。当今的光纤最初在1960年代推出,迄今为止已部署超过70亿公里。虽然它们继续演进,具有更低的损耗和更好的性能,但它们都有硅芯。硅芯光纤(SCF)的折射率约为1.5,这意味着光速比真空中的光慢约30%。
空心光纤改变游戏规则
空心光纤(HCF)是一种具有根本不同架构的新方法。顾名思义,纤芯是空心的,充满空气或更典型的气体。因此,其折射率约为1,这意味着光传播速度比SCF快50%,将延迟减少约30%。对于AI跨越扩展应用,这将数据中心之间的最大距离增加50%,数据中心占地面积增加125%。这为运营商提供了更多灵活性,可以将数据中心设置在房地产成本更低、能获得重要电力和冷却水资源的区域。
更低的功耗
在AI时代,另一个重要指标是功耗。除了使数据中心能够设置在更接近低成本电源的地方外,HCF还可以显著降低光网络功耗。它实现这一点的一种方式是通过更低的损耗。SCF中的光损耗已稳定在约0.14分贝/公里。最先进的HCF显示最小损耗约为0.05分贝/公里,研究人员正在努力实现更低的损耗。更低的损耗减少了对耗电量大的光放大的需求。较短距离的数据中心互联(DCI)应用可能不再需要光放大;中等距离DCI可能不再需要数据中心之间的光放大;更长距离DCI可能需要更少、间距更大的在线放大器(ILA)站点。HCF还受益于低色散和非线性损伤。长期来看,这可能意味着更简单因此更低功耗的相干光引擎。低损耗还可能转化为数据中心内HCF应用的更低功耗。
制造和成本挑战仍然存在
除了低延迟和降低功耗外,HCF还有潜力通过更宽的频谱和改善的波长频谱效率来增加光纤容量。然而,在HCF能够在商业环境中广泛部署之前,仍有重大挑战需要解决。这些包括成本、可制造性、供应商多样性,以及与测试、拼接、连接器、维修和与SCF耦合相关的操作因素。
数据中心应用采用
尽管存在挑战,最近光学行业会议上的公告表明,在这些领域都取得了很大进展。几家主要云服务提供商和HCF供应商已宣布部署和合作伙伴关系,以扩大制造规模。这些初始部署主要针对AI数据中心之间的城域规模跨越应用,但随着HCF成本下降和制造规模增加,低延迟和低损耗使得数据中心内HCF采用成为下一个可能的用例,海底部署是HCF生态系统的长期目标。
Q&A
Q1:空心光纤比传统光纤有什么优势?
A:空心光纤的核心优势在于大幅降低延迟和功耗。由于其纤芯是空心的,充满空气或气体,折射率约为1,使得光传播速度比传统硅芯光纤快50%,延迟减少约30%。同时,空心光纤的光损耗更低,约为0.05分贝/公里,远低于传统光纤的0.14分贝/公里。
Q2:空心光纤如何影响AI数据中心的部署?
A:空心光纤将数据中心之间的最大距离增加50%,数据中心占地面积增加125%。这为运营商提供更多灵活性,可以将数据中心设置在房地产成本更低、能获得重要电力和冷却水资源的区域,对AI集群的跨区域部署具有重要意义。
Q3:空心光纤目前面临什么挑战?
A:空心光纤在商业化部署前仍面临重大挑战,主要包括成本、可制造性、供应商多样性等问题。此外还有操作层面的挑战,如测试、拼接、连接器、维修以及与传统硅芯光纤的耦合等技术问题需要解决。
热门跟贴