公众号记得加星标⭐️,第一时间看推送不会错过。

Andy Bechtolsheim是Unix系统制造商Sun Microsystems的传奇联合创始人,之后又创办了多家网络初创公司。他对共封装光器件(CPO)并不反对。当然,唯一的问题是,迄今为止,CPO模块还无法实现量产。

毫无疑问,共封装光模块(CPO)即将应用于数据中心,尤其是在人工智能行业巨头英伟达(Nvidia)在其Quantum X800 InfiniBand和Spectrum X800以太网交换机上采用CPO链路之后——这两款交换机于2024年6月发布预览,2025年3月正式上市,并于2025年12月开始出货。英伟达还在今年3月的GTC大会上告知客户,随着未来“Feynman”GPU将于2028年问世,其机架级系统核心的NVSwitch 8相干内存扩展网络也将迁移到CPO。这强烈暗示Feynman GPU以及英伟达与之搭配的下一代Arm服务器CPU(目前尚未公布代号)也将配备CPO端口。

为了解决制造工艺问题,在今年的GTC大会之前,英伟达分别向Lumentum和Coherent注资20亿美元,这两家公司主要生产驱动CPO端口的激光器。英伟达还与这两家公司签署了数十亿美元、为期多年的供货协议。3月晚些时候,英伟达又与Marvell签署了一项类似的20亿美元协议,旨在为定制加速器添加NVLink Fusion端口。但我们认为,Marvell在2025年12月以25亿美元收购Celestial AI时获得的CPO技术,也可能包含在这项协议中。

与此同时,人工智能数据中心需要更高的网络密度,因此需要比过去二十年来主导数据中心的SFP、QSFP和OSFP可插拔模块密度更高的光模块。更具体地说,它们需要比OSFP可插拔模块更高的密度。OSFP可插拔模块最初由Arista Networks于2016年提出。Arista Networks是一家新兴公司,在数据中心网络领域挑战思科系统(Bechtolsheim是该公司联合创始人兼首席开发官)。大约一年后,谷歌和业界采纳了该标准,并推出了速度高达400 Gb/s的可插拔模块。这些模块已成为历史上最流行的可插拔光模块。

问题在于,OSFP 模块对于现代人工智能系统所需的基数来说太大了,尤其是在需要使用以太网进行纵向扩展和横向扩展的情况下。这时,超密集可插拔光模块(XPO)多源协议就派上了用场。该标准由 Arista Networks、微软、Marvell、博通和 Ciena 等公司发起,目前已获得超过一百家公司的支持。谷歌并不在支持名单之列,这可能意味着谷歌会在 XPO 模块预计大规模上市的同一时期,尝试从 OSFP 可插拔模块过渡到某种片上 CPO 技术。

XPO模块的巧妙之处在于,它在与OSFP模块相同的空间内提供了更高的带宽,这意味着交换机的前面板可以输出更多的数据流,从而提供更大的带宽。然而,由于物理定律的限制,XPO模块必然会带来更高的热密度,因此需要通过冷板和液冷来散热。但在GPU和XPU需要以越来越大的规模进行纵向和横向扩展,并且液冷已成为机架级系统标配的今天,这只是一个微不足道的问题。目前,没有其他方法能够使组件彼此更紧密地连接,从而降低延迟并提升性能。

据Bechtolsheim称,目前使用1.6 Tb/s的OSFP模块,可以在1U以太网交换机的前面板提供32个端口,总吞吐量为51.2 Tb/s。OSFP模块的功耗在30瓦到40瓦之间,即使加装散热板,也无法真正提升散热能力或增加交换机前面板端口密度。这意味着,如果您拥有204.8 Tb/s的交换机ASIC芯片(信不信由你,我们很快就会拥有),则需要4U的机箱空间才能容纳128个以1.6 Tb/s速率运行的OSFP模块。

打开网易新闻 查看精彩图片

XPO模块在两个OSFP模块所占的空间内集成了64个运行速度为200 Gb/秒的通道,通道密度提高了四倍。XPO模块使带宽提高了八倍,散热能力提高了十倍,达到400瓦。

以下是XPO模块的分解图:

打开网易新闻 查看精彩图片

Bechtolsheim说,这里巧妙地利用了几何原理,使得芯片板(电路的小型主板)能够正好安装在两个 OSFP 模块相同的空间内。因此,芯片和芯片板的设计无需更改。将两个芯片板并排放置,然后将两对芯片板首尾相接堆叠,就能在两倍的空间内获得八倍的通道数。

仔细想想,XPO 的设计理念似乎很符合直觉,就像许多优秀的工程设计理念在事后看来那样。

XPO模块将支持多种前面板光纤连接器:

Bechtolsheim指出,XPO的优势在于它支持任何光学标准、任何光学技术、任何类型的驱动器、重定时器或齿轮箱、任何光纤连接器以及任何类型的电缆,并且无需转向CPO即可提高密度。经济效益或许会更好,但不要过早下结论。

另一个好处是,采用液冷技术的XPO组件在12.8 Tb/s ZR模块(其原理图和热图如下所示)中,温度比风冷的1.6 Tb/s OSFP-ZR模块低20到25摄氏度。(在相同的1.6 Tb/s带宽下,XPO模块的温度大约低45摄氏度,而OSFP模块的温度则在65到70摄氏度之间。)

打开网易新闻 查看精彩图片

更低的温度意味着现场故障会减少——具体减少多少还有待观察。但这对于人工智能超级计算机来说意义重大,因为任何故障都会导致训练运行完全停止,必须回滚到之前的检查点并重新开始。对于GPU和XPU来说,时间就是金钱,而且是巨大的金钱。

在即将推出的采用 XPO 模块的交换机设计中,XPO 模块的电源将直接从 50 伏母线取用,而无需像使用 OSFP 模块的交换机那样通过主板电压转换器。这是一种更高效的电源分配方式。

总而言之,使用 XPU 模块的交换机机架可以将 6.5 Pb/秒的总吞吐量塞进 Open Compute Project 的 Open Rack v3 交换机机架中,其外观如下:

打开网易新闻 查看精彩图片

但真正让AI数据中心建设者对XPO模块感兴趣的,是以下这笔经济效益:由于网络机架密度的提高,他们可以将数据中心的规模缩减一半。这种改变是巨大的。

假设您需要一排基于以太网的计算和网络设备,将 512 个 XPU 连接在一起,并且您希望使用配备顶级 1.6 Tb/s OSFP 端口的交换机。每个机架将有 128 个计算引擎,需要四个机架用于计算,但网络设备需要八个机架。如果改用 XPO,您仍然需要四个机架的 XPU,但只需要两个机架的交换机。因此,在相同的计算和互连条件下,原本需要十二个机架的设备减少到六个机架。交换机机架的温度会更高,但数量更少,功耗基本持平。XPU 和交换机之间的电缆长度也更短,这意味着减少了光纤的使用,从而降低了成本。在一个 1 吉瓦的数据中心里,这些看似微小的优势会累积起来,就像减少混凝土用量和建造更小的机房一样,都能为相同的计算和网络容量节省成本。

那么,XPO究竟在多大程度上取代了CPO?贝希托尔斯海姆的回答和他多年来的回答如出一辙。

“我们已经向客户和公众声明过,我们对任何技术都没有绝对的执念,”贝Bechtolsheim表示。“这一点大家都能理解。我们唯一坚持的是能够大规模交付产品。所有参与XPO项目的人员都是自掏腰包完成工作的,他们都希望拥有自己开发的成果,而且他们都会继续参与其中。这项工作是由一个大型终端客户推动的,但我认为所有人都认真审视过这个项目,并得出结论:这是实现更高密度水平的途径。”

超过 20 家不同的供应商将生产 XPO 模块,预计将于 2027 年实现批量生产。

https://www.nextplatform.com/connect/2026/04/17/bechtolsheim-friends-breathe-life-into-pluggable-optics-one-last-time/5218123

(来源:编译自nextplatform)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4382内容,欢迎关注。

加星标⭐️第一时间看推送

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

求推荐

打开网易新闻 查看精彩图片