马斯克 xAI 的 Colossus 数据中心里有着高达 55 万张 GPU,然而训练时平均每张卡的利用率只有大约 10%。剩下的 90% 算力其实被数据搬运拖了后腿,也就是说 GPU 大部分时间都是在等数据。
6 月 11 日,香港中文大学博士生王本善和他所在的黄超然教授团队在《科学》杂志上发表了一篇论文。港中文黄超然教授为文章的通讯作者,港中文博士研究生王本善和肖洽荣为文章的共同第一作者。其他共同作者包括来自港中文的博士研究生徐滕基、范理、刘少杰和孔秋强教授,华中科技大学董建绩教授和复旦大学张俊文教授。
他们打造了一款全光信号处理芯片(OSP,Optical Signal Processor),可以降低数据在 GPU 之间传输延迟,把被耽搁的效率找回来,让 GPU 不再干等。本次芯片的总吞吐量达到 1.6Tbps,延迟仅有 60 皮秒。1.6Tbps 意味着一秒就能传上百部蓝光电影,60 皮秒则比一个电脑时钟周期还要短。
光信号无需转成电,直接在半路修好
在当前的数据中心里,大部分 GPU 之间依靠光互联实现数据传输。光模块发射端将数字信号转成光然后传出去,接收端再来转回电。但是光信号在光纤里跑的时候会受损,例如色散会让脉冲展宽,光电器件带宽不够会让信号变糊,非线性效应则会制造各种失真。
随着传输速率的不断提升,信号失真问题也会更严重。传统做法是在光转成电之后,使用数字信号处理(DSP,Digital Signal Processing) 芯片去修复。尽管 DSP 芯片非常成熟,然而它的延迟很高。在电处理上依赖于数字时钟频率,一般在兆赫兹或吉赫兹级别,延迟在微秒级到毫秒级,当几万张卡一起跑的时候,这个延迟会被不断放大。
对此,研究团队的思路是受损是在光路上出现的,那么就在光路上直接修复。他们所打造的全光信号芯片放在光电探测器之前,所以会在信号还是光的时候就把失真补偿掉。处理前不用转电,就不用等候时钟周期,光速有多快,处理就可以有多快。
他们在芯片上设计了三层级联的光学储备池,每层都设计了一个反馈回路。这三层叠加起来之后,配合一个 8 分支的全光读出层,就能形成一个等效的无限脉冲响应滤波器。
也就是说,这颗小小的光子芯片在功能上好比一个拥有 7 个反馈通道和 64 个前馈通道的复值滤波器。进一步利用光电探测器的平方律探测,整个系统可以等效成二阶 Volterra 非线性均衡器结构。他们还特意把储备池层和读出层的采样周期调成不完全一致,借此产生了游标卡尺一样的放大效应。这样一来,有效采样分辨率达到了 1 皮秒,1 皮秒是一万亿分之一秒,这比光走一根头发丝直径的距离还要短。
王本善告诉 DeepTech,我们常用的笔记本发烫了 GPU 就会降频,显示屏画面也会变卡。而数据中心里的几万张卡一起跑,电芯片发热会更严重,进一步降低系统效率。正因此他们转而使用光来做处理,实现了发热更少、延迟也更低的效果。对于 AI 数据中心来说,整体也可以更节能。
色散、带宽、非线性,三种损伤一起修
一直以来,光纤通信里存在三个难题:在色散方面,不同颜色的光速度不一样快,脉冲会被拉宽,这就导致前后码元叠在一起;在光收发机方面,带宽不够就像一扇太窄的门,高频分量自然也就过不去,信号也会变糊;在光纤里非线性效应方面,能量太高的时候,光本身也会互相干扰。
使用传统 DSP 来处理色散的痛点在于,由于接收端在做光电探测的时候光信号相位信息已经丢失,所以补偿效果十分有限,而且还会放大高频噪声。业内有个经典公式 B²DL,其被用于衡量色散对于系统的限制。以 100GBaud 信号为例,在 C 波段传输的时候,DSP 能够无损补偿的累积色散仅有大约 25 皮秒每纳米。
王本善做的对比实验显示,当光纤长度为 5 公里,累积色散为 85 皮秒每纳米,没有 OSP 的时候眼图则是一片模糊。OSP 一加上去,眼图立刻就清晰了。他还在 5 公里光纤上跑了 100GBaud 的 PAM4 信号,在没有任何接收端 DSP 辅助的前提下,OSP 就能实时把信号修好。仿真结果显示,OSP 甚至可以支持 170 皮秒每纳米色散下的 100GBaud 传输,这让可用的波分复用窗口被拓宽了 6.8 倍以上;同时 OSP 还支持 200GBaud 的超高速信号处理。
低成本、低功耗、可编程,一个芯片处理八个通道
据介绍,OSP 并非一块固定功能的芯片,假如调节片上微加热器驱动的移相器,它能够重新配置光场处理过程,从而可以适应不同的调制格式、数据速率和工作波长。
王本善在 5 公里光纤上分别测试了 OOK 和 PAM4 两种调制格式,符号率从 56GBaud 到 112GBaud,波长从 1,540 纳米到 1,565 纳米都是连续可调的。他还使用粒子群优化算法来做原位训练,借此发现 OSP 能够针对不同链路状态来自动地优化参数,并且传输出错的概率始终低于那个能让硬件自己把错误修好的门槛。
在制程方面本次 OSP 芯片用的是商用硅光平台,65 纳米以上就能满足。相比之下,1.6T 光模块需要的传统 DSP 芯片得用 3 纳米制程。而 3 纳米的流片费用是 65 纳米的几十倍甚至上百倍,成本差距非常悬殊。在功耗方面 DSP 芯片处理 1.6T 信号大概要 10 瓦。
王本善测了一下 OSP 芯片功耗大约为 100 毫瓦,理论上还能降到 10 毫瓦量级,实现了一百到一千倍的提升。而且,光芯片的制程要求更低,65 纳米就能跑,传统电芯片却要一路追摩尔定律追到 3 纳米。由此可见,当电芯片越做越贵、功耗越来越高的时候,光芯片早已使用成熟制程实现了弯道超车。
光芯片还有一个天然优势,这个优势就是并行处理能力。传统 DSP 芯片处理波分复用信号的时候,每个波长通道都需要配一个 DSP 模块,8 个通道需要 8 个 DSP,32 个通道需要 32 个 DSP,功耗和芯片面积线性增长。
本次 OSP 芯片利用了光波的并行性,一个芯片就可以同时处理多个波长通道,完全不需要额外增加能耗和芯片面积。王本善搭建了一个 1.6Tbps 的数据中心互联演示系统,其中 C 波段 8 个波长通道,每一个通道跑 200Gbps 的 PAM4 信号,随后通过 5 公里光纤传输。
期间,一个 OSP 芯片就可以同步处理所有通道,由于不同波长的色散不一样,这时剩下的一点小问题,只需要一个小电处理芯片就能搞定。在混合方案里,每个通道平均只需要 25 抽头的前馈均衡器或 15 抽头的决策反馈均衡器,抽头数比传统纯 DSP 芯片方案少了一个数量级以上,且性能更佳。
王本善在采访中还提到了一个关于技术路线的关键判断,使用光计算来做通用计算一直面临一个问题,那就是输入输出都是电信号,需要反复做电光光电转换,这样一来优势就被吃掉了。但他选的这个场景不一样,因为光互联的输入是光、输出也是光,天然就适合光计算,也就是说他们把光计算芯片嵌在了最合适的位置上。
从实验室到启动创业,把光计算用在最合适的地方
据了解,王本善 2020 年从武汉大学本科毕业,学的是电子信息工程。他本科就做过空间光通信项目,拿了全国大学生光电设计竞赛二等奖。武汉是中国的光电子产业重镇,烽火通信、光迅科技这些龙头企业都在这里。本科期间走访企业,让他对光电行业有了初步的认识和兴趣。后来他看到黄超然老师这边做的光计算项目,发现原来光学除了通信之外,在计算等领域也有多样的应用前景。
2021 年 6 月,他加入了黄超然教授团队,成为后者团队最早期的博士生之一。这个项目从 2022 年启动,中间流片迭代了五次以上,每次需要等待半年,回来测试、优化参数、再等下一次,每一次等待都很煎熬。与此同时,光通信和光计算相关领域发展迅速,团队的技术目标也随着行业进展不断提高:从最初面向单通道 50G 内,逐步提升到 200G 乃至 400G 级别。
2024 年,他们第一次在纯光链路里把信号恢复出来。期间没有用任何 DSP 芯片,没有用任何 DSP 算法,一个 200G 的 C 波段 1,550 纳米信号在光纤里传了一段 5 公里之后(等效 O 波段 1,300 纳米传输 80 公里),被他们本次研发的 OSP 芯片完完整整地修了回来。王本善说:“看到本来很 dirty 的高速信号直接变得很干净,整个团队非常兴奋。这个结果在学界和业界都没有见过。”目前商用主流 1.6T 模块传输距离仅为 O 波段 2 公里。
香港中文大学在光学领域有着特殊的传承,“光纤之父”高锟曾担任该校校长,他的研究让光通信成为可能。半个多世纪后,该校团队这次在《科学》上发表全光信号处理芯片,让光处理信号成为现实。从让光跑腿到让光动脑,可以说这所大学用了几代人的时间。而王本善作为黄超然的第一个博士生,参与并见证了团队第一篇 Science 正刊的诞生,这份经历对他来说意义非凡。
王本善下个月即将毕业拿到博士学位。目前,他跟所在团队正在筹备一家初创公司,积极推进相关技术的产业化工作。他们在去年参加了中国国际大学生创新大赛(原互联网+),拿了全国第三名,眼下已经有投资机构表达了融资意向。
未来,他希望在中国香港或内地尽快把公司跑起来,他相信光互联的延迟从微秒毫秒级降到皮秒级,AI 训练成本会跟着降下来,普通人用 AI 花的钱也会变少。训练一个万亿参数的大模型,本来可能要一个月,未来有希望在十分之一的时间里跑完,那被耽误的 90% 算力,也许很快就能要回来了。
参考资料:
相关论文 https://www.science.org/doi/10.1126/science.ady5344
运营/排版:何晨龙
热门跟贴