训练大型新型AI模型的速度,归根结底取决于两个词:向上(up)与向外(out)。

在数据中心领域,横向扩展(scaling out)指增加可互联的AI计算机数量,将大型任务拆分处理;而纵向扩展(scaling up)则是在每台计算机中集成尽可能多的图形处理器(GPU),通过互联使其等效于一个巨型GPU,从而更快地处理更大规模的任务模块。

这两种扩展方式依赖不同的物理连接技术。横向扩展主要依靠光子芯片和光纤,二者结合可实现数百米甚至数千米的数据传输;纵向扩展形成的网络密度约为横向扩展的10倍,其核心技术则更为简单经济——通常是长度不超过1-2米的铜缆。

但高性能计算机所需的GPU间数据传输速率不断攀升,已逐渐逼近铜缆的物理极限。数据中心互联初创企业Point2 Technology的产品营销与业务拓展副总裁戴维·郭(David Kuo)表示,当铜缆的带宽需求接近太比特/秒级别时,物理规律决定了其必须做得更短、更粗。这带来了两大难题:一是当前计算机机柜内部空间本就拥挤,二是头部AI硬件企业英伟达(Nvidia)计划到2027年将每系统最大GPU数量从72个提升至576个,实现8倍增长。

“我们称之为‘铜缆悬崖(copper cliff)’。”郭说道。

行业内正通过延长铜缆传输距离、将纤细长距的光纤更贴近GPU等方式疏解数据中心的连接瓶颈。但Point2与另一家初创企业AttoTude提出了一种介于两种技术之间、又完全区别于二者的解决方案。他们声称,该技术兼具铜缆的低成本、高可靠性优势,以及光纤的纤细尺寸和长距离传输特性,足以满足未来AI系统的需求。

打开网易新闻 查看精彩图片

他们的答案是什么?无线电技术。

今年晚些时候,Point2将开始量产支撑1.6太比特/秒传输速率线缆的芯片。该线缆由8根纤细的聚合物波导组成,每根波导利用90吉赫兹和225吉赫兹两种频率,可实现448吉比特/秒的传输速率。波导两端的可插拔模块负责将电子比特转换为调制无线电波,再将接收的无线电波还原为电子比特。AttoTude则计划开发原理相似的技术,但采用太赫兹频段和另一种纤细柔性的线缆。

两家企业均表示,其技术在传输距离上轻松超越铜缆——可实现10-20米的无显著损耗传输,这一距离足以满足英伟达公布的纵向扩展计划。其中Point2的系统功耗仅为光纤的1/3,成本同样降至光纤的1/3,时延则低至光纤的千分之一。

支持者认为,相较于光电子技术,无线电技术更可靠、更易制造,因此在实现低能耗处理器间直连GPU的竞赛中,有望击败光子技术,甚至可替代印刷电路板上的部分铜缆。

铜缆的局限性何在?

那么铜缆究竟存在什么问题?其实在数据速率不高、传输距离不远的场景下,铜缆并无明显缺陷。但在高数据速率场景中,铜等导体会受到“趋肤效应(skin effect)”的影响。

趋肤效应的产生,是因为信号的快速变化电流会产生反向磁场,这种反向作用力集中在导线中部,导致大部分电流只能在导线外缘(即“表皮”)流动,从而增加电阻。在许多国家的市电频率(60赫兹)下,大部分电流集中在铜导线外层8毫米区域;但在10吉赫兹频率下,电流仅集中在0.65微米深的表皮层。因此,要通过铜缆传输高频数据,就需要更粗的导线和更多的功耗,而这两点均与“在更小空间内集成更多连接以实现计算纵向扩展”的需求相悖。

为抵消趋肤效应及其他信号衰减问题,企业开发了两端配备专用电子元件的铜缆。其中最具前景的是“有源电缆(AECs)”,其终端芯片被称为“重定时器(retimer)”。该集成电路会对从处理器接收的数据信号和时钟信号进行净化,再通过铜缆中通常包含的8对导线(即通道)重新传输(另有一组导线用于反向传输)。在接收端,同款芯片会处理传输过程中积累的噪声和时钟偏差问题,再将数据传递给接收处理器。因此,有源电缆通过增加电子元件复杂度和功耗,延长了铜缆的传输距离。

为数据中心提供网络硬件的Credo公司高级副总裁兼产品负责人唐·巴尼特森(Don Barnetson)表示,该公司已开发出可实现800吉比特/秒、传输距离达7米的有源电缆——当计算机集成500-600个GPU并跨多个机柜时,这一距离至关重要。有源电缆的首批应用可能是将单个GPU与构成横向扩展网络的交换机相连。巴尼特森指出,这一横向扩展网络的初始环节至关重要,因为“它是网络中唯一无冗余的节点”。该链路即使短暂中断,也可能导致AI训练任务崩溃。

但即便重定时器能将“铜缆悬崖”的到来推迟一段时间,物理规律最终仍会占据主导。Point2和AttoTude均认为,这一临界点已近在眼前。

太赫兹无线电的传输潜力

AttoTude源自创始人兼首席执行官戴夫·韦尔奇(Dave Welch)对光子学的深入研究。韦尔奇是光通信设备制造商Infinera的联合创始人(该公司于2025年被诺基亚收购),数十年间深耕光子系统开发,对该技术的缺陷了如指掌:功耗过高(据英伟达数据,约占数据中心计算预算的10%)、对温度极为敏感、光子芯片的光耦合需要微米级精度制造,且长期可靠性不佳的问题众所周知(行业内甚至有专门术语“链路抖动(link flap)”)。

“客户青睐光纤,但厌恶光电子元件。”韦尔奇表示,“事实已证明,电子元件本质上比光电子元件更可靠。”

在诺基亚以23亿美元收购Infinera后,韦尔奇在筹备下一家初创企业时思考了一系列核心问题,其中首要问题是:“如果不必局限于光波长,我应该选择什么频段?”答案是纯电子技术可实现的最高频段——太赫兹频段(300-3000吉赫兹)。

因此,韦尔奇团队着手开发一套系统,包含与GPU对接的数字组件、太赫兹频率发生器,以及将数据编码到太赫兹信号的混频器。天线会将信号导入纤细的柔性波导中。

该波导的核心是用于传输太赫兹信号的电介质,外部包裹着包层。早期版本采用狭窄的空心铜管;韦尔奇表示,第二代线缆由直径仅200微米的光纤组成,损耗可低至0.3分贝/米,仅为传输224吉比特/秒的典型铜缆损耗的一小部分。

韦尔奇预测,这种波导的传输距离可达到20米。“这恰好是数据中心纵向扩展所需的理想距离。”他说道。

目前,AttoTude已完成各核心组件的研发——数字数据芯片、太赫兹信号发生器、信号混频电路,以及多代波导产品,但尚未将其集成到单一可插拔模块中。尽管如此,韦尔奇表示,现有组件组合已能提供至少224吉比特/秒的传输带宽,且该初创企业于今年4月在旧金山举行的光纤通信会议(OFC)上,成功演示了970吉赫兹频率下4米距离的传输。

无线电技术在数据中心的应用前景

Point2将无线电技术应用于数据中心的探索早于AttoTude。这家由迈威尔(Marvell)、英伟达、三星等企业资深人士于9年前创立的初创公司,已筹集5500万美元风险投资,其中最引人注目的投资方是计算机线缆与连接器制造商莫仕(Molex)。郭表示,莫仕的支持至关重要,“因为他们是线缆与连接器生态系统的核心参与者”。莫仕已证实,无需改造现有生产线即可量产Point2的线缆;目前,线缆连接器制造商富士康工业互联网也已与该初创企业达成合作。这些行业巨头的支持,可能成为Point2吸引超大规模数据中心运营商客户的重要优势。

Point2的线缆名为e-Tube,其两端各包含一块硅芯片和一根天线:硅芯片负责将输入的数字数据转换为调制毫米波信号,天线则将信号辐射至波导中。波导本身以塑料为核心,外部包裹金属包层,整体再由金属屏蔽层封装。1.6太比特/秒的线缆被称为“有源无线电电缆(ARC)”,由8个e-Tube核心组成,直径仅8.1毫米,体积仅为同类有源电缆的一半。

郭指出,工作在射频频段的一大优势是,相关处理芯片可通过标准硅晶圆厂制造。Point2工程师与韩国科学技术院的合作研究(今年发表于《IEEE固态电路期刊》)显示,采用2010年就已非尖端的28纳米CMOS技术即可实现。

纵向扩展网络市场

尽管这两家企业的技术前景看似广阔,但它们仍需克服数据中心行业对铜缆的长期依赖。“我们首先会采用无源铜缆,并尽可能在无源铜缆的技术框架内持续推进。”Credo的巴尼特森说道。

他表示,数据中心液冷技术的兴起就是这一趋势的佐证:“人们采用液冷技术的核心原因,就是为了在无源铜缆的框架内继续实现纵向扩展。”要通过无源铜缆连接更多GPU实现纵向扩展,就必须以极高密度集成GPU,而这种密度已超出风冷技术的承载能力。郭则认为,通过毫米波有源无线电电缆连接分布更分散的GPU实现同等规模的纵向扩展,可降低对冷却技术的需求。

与此同时,两家初创企业均在研发可直接集成于GPU的技术版本。

英伟达和博通(Broadcom)近期已部署与处理器共封装的光收发器,使电子元件与光元件的间距缩小至微米级,而非此前的厘米级或米级。目前,该技术仅应用于连接横向扩展网络的交换机芯片,但行业巨头与初创企业均在尝试将其扩展至GPU领域。

韦尔奇和郭均表示,在这种收发器-处理器共封装场景中,其企业的技术相较于光电子技术具有显著优势。英伟达和博通为实现该系统的量产可行性及与高价处理器共封装的可靠性,均投入了大量工程资源。其中一大核心挑战是,如何以微米级精度将光纤与光子芯片上的波导对接——由于红外激光波长极短,必须与直径仅约10微米的光纤纤芯精准对齐。相比之下,毫米波和太赫兹信号的波长长得多,波导对接无需如此高的精度。郭透露,在某演示系统中,这一对接过程甚至可手动完成。

可插拔连接将是该技术的首批应用场景,但韦尔奇表示,与处理器共封装的无线电收发器才是“真正的核心目标”。

加入“高速铜缆行业沟通微信加客服申请

阅读更多内容长按二维码识别

▼欢迎“点赞”“分享” 在评论区留下您的看法