港中文用全光信号处理芯片，突破AI数据中心传输瓶颈|dsp|光纤|全光信号|港中文

马斯克 xAI 的 Colossus 数据中心里有着高达 55 万张 GPU，然而训练时平均每张卡的利用率只有大约 10%。剩下的 90% 算力其实被数据搬运拖了后腿，也就是说 GPU 大部分时间都是在等数据。

6 月 11 日，香港中文大学博士生王本善和他所在的黄超然教授团队在《科学》杂志上发表了一篇论文。港中文黄超然教授为文章的通讯作者，港中文博士研究生王本善和肖洽荣为文章的共同第一作者。其他共同作者包括来自港中文的博士研究生徐滕基、范理、刘少杰和孔秋强教授，华中科技大学董建绩教授和复旦大学张俊文教授。

他们打造了一款全光信号处理芯片（OSP，Optical Signal Processor），可以降低数据在 GPU 之间传输延迟，把被耽搁的效率找回来，让 GPU 不再干等。本次芯片的总吞吐量达到 1.6Tbps，延迟仅有 60 皮秒。1.6Tbps 意味着一秒就能传上百部蓝光电影，60 皮秒则比一个电脑时钟周期还要短。

光信号无需转成电，直接在半路修好

在当前的数据中心里，大部分 GPU 之间依靠光互联实现数据传输。光模块发射端将数字信号转成光然后传出去，接收端再来转回电。但是光信号在光纤里跑的时候会受损，例如色散会让脉冲展宽，光电器件带宽不够会让信号变糊，非线性效应则会制造各种失真。

随着传输速率的不断提升，信号失真问题也会更严重。传统做法是在光转成电之后，使用数字信号处理（DSP，Digital Signal Processing) 芯片去修复。尽管 DSP 芯片非常成熟，然而它的延迟很高。在电处理上依赖于数字时钟频率，一般在兆赫兹或吉赫兹级别，延迟在微秒级到毫秒级，当几万张卡一起跑的时候，这个延迟会被不断放大。

对此，研究团队的思路是受损是在光路上出现的，那么就在光路上直接修复。他们所打造的全光信号芯片放在光电探测器之前，所以会在信号还是光的时候就把失真补偿掉。处理前不用转电，就不用等候时钟周期，光速有多快，处理就可以有多快。

他们在芯片上设计了三层级联的光学储备池，每层都设计了一个反馈回路。这三层叠加起来之后，配合一个 8 分支的全光读出层，就能形成一个等效的无限脉冲响应滤波器。

也就是说，这颗小小的光子芯片在功能上好比一个拥有 7 个反馈通道和 64 个前馈通道的复值滤波器。进一步利用光电探测器的平方律探测，整个系统可以等效成二阶 Volterra 非线性均衡器结构。他们还特意把储备池层和读出层的采样周期调成不完全一致，借此产生了游标卡尺一样的放大效应。这样一来，有效采样分辨率达到了 1 皮秒，1 皮秒是一万亿分之一秒，这比光走一根头发丝直径的距离还要短。

王本善告诉 DeepTech，我们常用的笔记本发烫了 GPU 就会降频，显示屏画面也会变卡。而数据中心里的几万张卡一起跑，电芯片发热会更严重，进一步降低系统效率。正因此他们转而使用光来做处理，实现了发热更少、延迟也更低的效果。对于 AI 数据中心来说，整体也可以更节能。

色散、带宽、非线性，三种损伤一起修

一直以来，光纤通信里存在三个难题：在色散方面，不同颜色的光速度不一样快，脉冲会被拉宽，这就导致前后码元叠在一起；在光收发机方面，带宽不够就像一扇太窄的门，高频分量自然也就过不去，信号也会变糊；在光纤里非线性效应方面，能量太高的时候，光本身也会互相干扰。

使用传统 DSP 来处理色散的痛点在于，由于接收端在做光电探测的时候光信号相位信息已经丢失，所以补偿效果十分有限，而且还会放大高频噪声。业内有个经典公式 B²DL，其被用于衡量色散对于系统的限制。以 100GBaud 信号为例，在 C 波段传输的时候，DSP 能够无损补偿的累积色散仅有大约 25 皮秒每纳米。

王本善做的对比实验显示，当光纤长度为 5 公里，累积色散为 85 皮秒每纳米，没有 OSP 的时候眼图则是一片模糊。OSP 一加上去，眼图立刻就清晰了。他还在 5 公里光纤上跑了 100GBaud 的 PAM4 信号，在没有任何接收端 DSP 辅助的前提下，OSP 就能实时把信号修好。仿真结果显示，OSP 甚至可以支持 170 皮秒每纳米色散下的 100GBaud 传输，这让可用的波分复用窗口被拓宽了 6.8 倍以上；同时 OSP 还支持 200GBaud 的超高速信号处理。

低成本、低功耗、可编程，一个芯片处理八个通道

据介绍，OSP 并非一块固定功能的芯片，假如调节片上微加热器驱动的移相器，它能够重新配置光场处理过程，从而可以适应不同的调制格式、数据速率和工作波长。

王本善在 5 公里光纤上分别测试了 OOK 和 PAM4 两种调制格式，符号率从 56GBaud 到 112GBaud，波长从 1,540 纳米到 1,565 纳米都是连续可调的。他还使用粒子群优化算法来做原位训练，借此发现 OSP 能够针对不同链路状态来自动地优化参数，并且传输出错的概率始终低于那个能让硬件自己把错误修好的门槛。

在制程方面本次 OSP 芯片用的是商用硅光平台，65 纳米以上就能满足。相比之下，1.6T 光模块需要的传统 DSP 芯片得用 3 纳米制程。而 3 纳米的流片费用是 65 纳米的几十倍甚至上百倍，成本差距非常悬殊。在功耗方面 DSP 芯片处理 1.6T 信号大概要 10 瓦。

王本善测了一下 OSP 芯片功耗大约为 100 毫瓦，理论上还能降到 10 毫瓦量级，实现了一百到一千倍的提升。而且，光芯片的制程要求更低，65 纳米就能跑，传统电芯片却要一路追摩尔定律追到 3 纳米。由此可见，当电芯片越做越贵、功耗越来越高的时候，光芯片早已使用成熟制程实现了弯道超车。

光芯片还有一个天然优势，这个优势就是并行处理能力。传统 DSP 芯片处理波分复用信号的时候，每个波长通道都需要配一个 DSP 模块，8 个通道需要 8 个 DSP，32 个通道需要 32 个 DSP，功耗和芯片面积线性增长。

本次 OSP 芯片利用了光波的并行性，一个芯片就可以同时处理多个波长通道，完全不需要额外增加能耗和芯片面积。王本善搭建了一个 1.6Tbps 的数据中心互联演示系统，其中 C 波段 8 个波长通道，每一个通道跑 200Gbps 的 PAM4 信号，随后通过 5 公里光纤传输。

期间，一个 OSP 芯片就可以同步处理所有通道，由于不同波长的色散不一样，这时剩下的一点小问题，只需要一个小电处理芯片就能搞定。在混合方案里，每个通道平均只需要 25 抽头的前馈均衡器或 15 抽头的决策反馈均衡器，抽头数比传统纯 DSP 芯片方案少了一个数量级以上，且性能更佳。

王本善在采访中还提到了一个关于技术路线的关键判断，使用光计算来做通用计算一直面临一个问题，那就是输入输出都是电信号，需要反复做电光光电转换，这样一来优势就被吃掉了。但他选的这个场景不一样，因为光互联的输入是光、输出也是光，天然就适合光计算，也就是说他们把光计算芯片嵌在了最合适的位置上。

从实验室到启动创业，把光计算用在最合适的地方

据了解，王本善 2020 年从武汉大学本科毕业，学的是电子信息工程。他本科就做过空间光通信项目，拿了全国大学生光电设计竞赛二等奖。武汉是中国的光电子产业重镇，烽火通信、光迅科技这些龙头企业都在这里。本科期间走访企业，让他对光电行业有了初步的认识和兴趣。后来他看到黄超然老师这边做的光计算项目，发现原来光学除了通信之外，在计算等领域也有多样的应用前景。

2021 年 6 月，他加入了黄超然教授团队，成为后者团队最早期的博士生之一。这个项目从 2022 年启动，中间流片迭代了五次以上，每次需要等待半年，回来测试、优化参数、再等下一次，每一次等待都很煎熬。与此同时，光通信和光计算相关领域发展迅速，团队的技术目标也随着行业进展不断提高：从最初面向单通道 50G 内，逐步提升到 200G 乃至 400G 级别。

2024 年，他们第一次在纯光链路里把信号恢复出来。期间没有用任何 DSP 芯片，没有用任何 DSP 算法，一个 200G 的 C 波段 1,550 纳米信号在光纤里传了一段 5 公里之后（等效 O 波段 1,300 纳米传输 80 公里），被他们本次研发的 OSP 芯片完完整整地修了回来。王本善说：“看到本来很 dirty 的高速信号直接变得很干净，整个团队非常兴奋。这个结果在学界和业界都没有见过。”目前商用主流 1.6T 模块传输距离仅为 O 波段 2 公里。

香港中文大学在光学领域有着特殊的传承，“光纤之父”高锟曾担任该校校长，他的研究让光通信成为可能。半个多世纪后，该校团队这次在《科学》上发表全光信号处理芯片，让光处理信号成为现实。从让光跑腿到让光动脑，可以说这所大学用了几代人的时间。而王本善作为黄超然的第一个博士生，参与并见证了团队第一篇 Science 正刊的诞生，这份经历对他来说意义非凡。

王本善下个月即将毕业拿到博士学位。目前，他跟所在团队正在筹备一家初创公司，积极推进相关技术的产业化工作。他们在去年参加了中国国际大学生创新大赛（原互联网+），拿了全国第三名，眼下已经有投资机构表达了融资意向。

未来，他希望在中国香港或内地尽快把公司跑起来，他相信光互联的延迟从微秒毫秒级降到皮秒级，AI 训练成本会跟着降下来，普通人用 AI 花的钱也会变少。训练一个万亿参数的大模型，本来可能要一个月，未来有希望在十分之一的时间里跑完，那被耽误的 90% 算力，也许很快就能要回来了。

参考资料：

相关论文 https://www.science.org/doi/10.1126/science.ady5344

运营/排版：何晨龙