#3月·每日幸运签#

3月3日,中国电信研究院称,跟广东电信、华为一起,在广州和深圳之间干了件事:用一根多芯光纤,把三个智算中心连起来搞AI训练,距离409.61公里,性能跑到了集中训练的97%以上。

消息很短,但懂行的人看了会愣一下。

多芯光纤是什么?普通光纤就像一条单车道,光信号只能排着队走。多芯光纤相当于在一条管子里塞了七条车道,车可以并排跑。以前这东西主要在实验室里玩,没人真把它拉到马路上跑几百公里试试。

这次试了。从广州南方基地到沙溪,再到深圳沙河,四百多公里,三个点连成一张网。用的还是单波800Gb/s的超高速传输技术。

结果出来了:性能是集中训练的97%以上。

这个数字有意思。差的那3%,是物理距离换来的代价。但剩下的97%,意味着什么呢?意味着广州的算力、深圳的算力,可以像在一个机房一样协同工作。AI大模型训练那种动不动几千张卡同时跑的事儿,不用非得挤在一个地方干了。

有人可能会问,那为什么不挤在一个地方?因为算力不够。全国各地的智算中心建了不少,但都是孤岛,各算各的。想训练一个大模型,卡不够就得排队,或者花钱买新的。新的还没到,算法又迭代了。

分布式训练一直是个难题。难在哪儿?难在通信。几百公里外传数据,稍微卡一下,几千张卡就得互相等。等的时间一长,算力就白费了。

打开网易新闻 查看精彩图片

中国电信和华为这次搞的,就是让这几百公里的路不卡。他们用了一种叫“光-网-算-用”全栈优化的东西,简单说就是让光、网络、算力、应用四层一起配合,该抢道的时候抢道,该等的时候等,把延迟控制在人能接受的范围内。

有个细节值得说。这次验证依托的平台叫“中国电信云网融合技术中试验证平台”,是国资委认定的央企中试平台。中试这个词,很多人不熟。意思就是中间试验,实验室里跑通了,拉到现网里再跑一遍,看能不能真用。能跑通,说明这技术离落地不远了。

有几个搞AI的网友留言称:“97%这个数字比我想的高,一直以为跨城训练损耗会很大,看来以后不用死磕一个机房了。”另一个说:“多芯光纤的并行优势终于落地了,这东西理论上能扩展的带宽比单模高一个数量级。”

还有人说了一句:“这不就是算力版的南水北调么?”

话糙理不糙。东数西算喊了几年,核心就是想让西部的便宜电力和东部的旺盛需求匹配起来。但匹配的前提是路够宽,路够稳。以前靠单模光纤,运力有限。现在多芯光纤拉通,相当于把水管加粗了好几倍。

2026年1月,中国刚启用了一个叫“未来网络”的分布式算力网,用5.5万公里光纤把40个城市连起来,能在1.6小时内传完FAST射电望远镜产生的72TB数据。那也是个分布式计算的标杆。

但未来网络用的是传统光纤,传输靠的是“快”。这次的多芯光纤,靠的是“多”。七条车道一起跑,单车道扩成多车道,这条路一旦铺开,算力网的格局可能真要变。

打开网易新闻 查看精彩图片

当然,现网环境比实验室复杂。多芯光纤的每一芯性能不一定一样,有的衰减大,有的串扰多,得一条条调。这次能跑通,说明调通了。下一步就是规模化。

中国电信研究院的人说,接下来要结合全光网3.0,继续搞创新,加快规模化应用。翻译一下就是:这条路试通了,接下来要铺开了。

97%这个数字,将来可能会被刷新。但第一次有人跑通这件事,本身就是一个信号。信号的意思是:以后算力不一定非要建在你家门口,建在别处,用光纤拉过来,照样用。差的那么一点点,可能都感觉不到。