打开网易新闻 查看精彩图片

AWS 并非靠保守策略成为全球领先的云服务提供商。该公司正在加倍投资其 AI 基础设施,计划在 2026 年投入 2000 亿美元资本支出,其中大部分将投入到网络服务组合中。

AWS 投入这 2000 亿美元并非盲目投资,而是在重写其网络物理特性,以控制延迟并避免潜在的瓶颈。通过空芯光纤等新兴技术、持续专注于内部硬件开发以及重新设计的控制平面,该公司旨在为未来的多云标准树立标杆。

AWS 已构建了分层网络生态系统,并正在提升数据中心功率容量。在 2025 年第三季度财报电话会议中,亚马逊 CEO 安迪·贾西表示,AWS 仅在 2025 年就增加了 3.8 GW 的数据中心容量。该公司有充分理由将所有精力集中在 AI 基础设施上。

公司的网络服务组合已经看到了企业的巨大需求,实现了强劲的同比增长。据北极星市场研究预测,全球多云网络市场预计到 2034 年将增长至 365 亿美元,这反映了企业 IT 架构为满足 AI 竞赛需求而发生的转变。

AWS 网络工程副总裁马特·雷德接受了广泛访谈。他指出,公司正在采取大胆措施,包括启用空芯光纤——传统光纤的新兴挑战者——来扩展其在都市区的网络军械库。

数据中心知识:AWS 已为 2026 年制定了重大资本支出计划,网络将大幅受益。空芯光纤等新兴技术如何适应这种规模的支出?

马特·雷德:我们看到的情况是,由生成式 AI 和传统云工作负载驱动,客户全面加速增长,这直接转化为对更多带宽的需求。

这种需求以两种方式体现。首先,我们部署的每台服务器都需要连接到网络,每台服务器的带宽需求随时间持续增长。其次,我们所有的数据中心必须互连——在可用区内、跨区域、区域间以及对外连接。这种持续的带宽增长是我们多年来一直看到的,但 AI 显然加速了这一进程。

我们的优先级是可用性、可靠性和弹性。如果网络不工作,其他一切都无关紧要。核心目标是无约束扩展。我们绝不希望网络阻碍业务发展。这意味着拥有足够的端口、足够的带宽和足够的弹性,让客户完全不用考虑网络问题。

数据中心知识:空芯光纤长期以来因成本和供应问题被认为不实用。什么发生了变化,AWS 目前实际在哪里部署它?

马特·雷德:在我 25 年的职业生涯中,空芯光纤一直被讨论,通常作为理论概念。我们一直知道它在物理上是可能的,但无法大规模制造。

这种情况在四五年前开始改变,学术研究改进了生产技术。即使现在,它仍然是一项新兴技术。两个难题是可制造性——你能生产长距离、可靠的光纤跨度吗?——和成本。

对我们来说,主要用例是长距离互连。AWS 可用区由多个数据中心组成,客户将其视为一个逻辑设施。要实现这一点,我们需要大约半毫秒以下的延迟。这一约束限制了设施之间的距离。

空芯光纤让我们能够扩大这个半径。当土地或电力无法足够靠近时,它为我们提供了更多灵活性。目前,它比传统光纤贵得多,但如果它能够在我们原本无法建设的地方实现扩展,仍然可能是正确的权衡。

我们在非常少的地点使用它——大约 5 到 10 个地点——特别是存在地理约束的地方。长期来看,如果成本下降,我预计空芯光纤将变得更加普遍。除了延迟,它还具有更低的信号损失,可以支持更高的带宽或减少放大需求。

数据中心知识:在数据中心内部,AI 工作负载已经改变了游戏规则。您在规模化中看到了哪些新的网络瓶颈?

马特·雷德:有两个突出问题。首先是控制平面可扩展性。机器学习服务器需要的每服务器带宽是传统基于 CPU 系统的两到三倍。当我们扩展网络以满足这种需求时,设备和光链路数量急剧增长。

此时,传统控制平面方法就不再好用了。恢复时间增加,收敛变慢,你会遇到算法限制。大约在 2020 年,我们构建了专门为机器学习网络设计的新控制平面。它能够实现故障的亚秒级恢复、跨数千设备的一致编程,以及扩展到数十万链路而不遇到瓶颈。

这个系统现在正成为我们所有网络的基础,不仅仅是机器学习,因为它根本上更好。

第二个挑战是布线。在超大规模下,单个数据中心可能有数十万条物理链路。这在重量、路由、部署速度和长期维护方面造成问题。

我们在更好的跟踪系统、改进的电缆设计和将多根光纤聚合到单个连接的新连接器技术方面进行了投资。这减少了部署时间并提高了规模化可靠性。

数据中心知识:AWS 设计了大部分自己的网络硬件。这种垂直整合提供了什么优势?

马特·雷德:我们大约 15 年前开始开发自己的网络硬件,最初只是为了服务器连接。今天,我们几乎整个网络——从机架顶部交换机到骨干网和互联网边缘——都运行在我们自己的设备上。

最大的优势是一致性。我们在任何地方都使用相同的基本构建块:相同的 ASIC、外形因子和操作系统。这简化了供应链,让我们能够一次性在整个网络中应用软件改进。

它还支持我们无法以其他方式构建的功能。例如,我们的控制平面部分运行在设备本身上。这在现成设备上是不可能的。

在操作上,它改善了配置、监控和维修。我们可以自动化测试,准确获取我们想要的遥测数据,并自动触发修复。每一个渐进式改进都能扩展到整个网络。

数据中心知识:AWS 还构建了高精度时间服务。为什么这是必要的,它释放了什么能力?

马特·雷德:大约在 2019 年,我们开始专注于时间精度。NTP 等标准方法可能相差几秒,这在大型分布式系统中造成真正的问题,特别是在一致性和排序方面。

纯软件解决方案无法克服网络变化性,因此我们构建了与数据网络并行运行的基于硬件的时间网络。每个数据中心都有通过 GPS 同步的原子钟。专门设备分发时序脉冲,每台服务器上的硬件——使用我们的 Nitro 平台——以纳秒级精度接收该脉冲。

这在软件中实现了微秒级精度。它释放了高度一致的分布式数据库等新功能,并使金融交易所等工作负载在云中变得可行。纳斯达克已经演示了交易所如何在这种架构上运行。这在十年前是不可能的。

数据中心知识:随着功率和冷却约束加剧,能源限制在多大程度上影响您的网络路线图?

雷德:能源不会限制我们的路线图,但效率是一个主要焦点。我们密切关注每比特瓦数——移动数据所需的功率。

因为我们控制自己的硬件,我们可以在非常精细的层面进行优化:风扇算法、组件选择,以及基于负载的动态功率缩放。每个设备的收益可能很小,但在数千台交换机和许多数据中心中,它们累积成总功耗的显著减少。

这对环境、客户和我们的成本结构都有好处。

数据中心知识:展望三到五年,今天常见的哪些网络假设到本十年末将过时?

马特·雷德:两个主要转变突出。首先,液体冷却将成为网络设备的标准,不仅仅是服务器。将液冷服务器与风冷网络混合增加了复杂性,液冷提供效率优势。

其次,光学集成将发生变化。今天的可插拔光学器件提供灵活性和可维护性,这在规模化中很有价值。完全共封装光学器件长期以来一直被讨论,但在可靠性和操作权衡方面存在困难。

我认为行业将转向共封装连接器——将连接器更靠近 ASIC 集成,同时保持光引擎模块化。这在不牺牲供应商多样性的情况下实现效率收益,这对 AWS 规模至关重要。

数据中心知识:最后,AWS 客户在 2026 年网络方面应该期待什么?

马特·雷德:理想情况下,更多的透明性。更多容量、更多带宽、更低延迟、更少丢包和更少抖动。

客户应该看到持续的容量扩展、改进的性能,以及与计算、存储和加速实例更紧密的集成。我们的目标很简单:确保网络永远不会阻碍客户想要构建的东西。

Q&A

Q1:空芯光纤技术相比传统光纤有什么优势?

A:空芯光纤的主要优势是延迟更低和信号损失更小。它能让AWS扩大数据中心之间的连接半径,在土地或电力资源无法足够靠近的地方提供更多建设灵活性。此外,它还能支持更高的带宽或减少信号放大需求。虽然目前成本比传统光纤高得多,但在某些地理约束条件下仍然是正确的技术选择。

Q2:AWS为什么要开发自己的网络硬件而不使用现成产品?

A:AWS自主开发网络硬件的最大优势是一致性。他们在所有地方使用相同的基本构建块,包括相同的ASIC、外形因子和操作系统。这简化了供应链,让他们能够一次性在整个网络中应用软件改进。同时,这种垂直整合还支持他们构建现成设备无法实现的功能,比如部分运行在设备本身上的控制平面。

Q3:AWS的高精度时间服务解决了什么问题?

A:传统的时间同步方法如NTP可能相差几秒,这在大型分布式系统中会造成一致性和排序问题。AWS构建了基于硬件的时间网络,每个数据中心都有通过GPS同步的原子钟,能够在软件中实现微秒级精度。这使得高度一致的分布式数据库和金融交易所等对时间要求极高的工作负载在云中变得可行。