你以为AI数据中心最烧钱的是GPU?错了!真正让大厂肉疼的,是把成千上万颗GPU串起来干活的那张网:光互连。多少企业砸了上亿买GPU,最后却因为网络跟不上,让这些“金疙瘩”躺在机房里闲置?今天就给你扒一扒AI时代光互连为什么突然成了香饽饽。
大模型训练不是单卡能搞定的,得靠数千、数万张GPU持续交换参数和数据。算力越密集,数据搬运越频繁,网络就从“配角”变成了“瓶颈”。
传统数据中心主要处理用户和服务器之间的南北向流量,但AI集群里真正庞大的是GPU之间、机柜之间的东西向流量。一旦链路延迟、带宽或丢包率跟不上,昂贵的GPU就只能干等着,利用率直接下滑:这简直是在烧钱!
铜缆适合短距离、低成本连接,但带宽从400G、800G往1.6T走时,铜缆的距离、功耗和信号问题就暴露了。光模块和光纤却能在更长距离里提供更高带宽、更低损耗,成了AI集群扩张的必需品。
比如英伟达的GB200和GB300机柜,内部靠NVLink整合CPU和GPU,机柜之间就得靠光互连来“牵线搭桥”,把分散的计算节点变成一个巨大的并行系统。
别以为光互连就是多插几根光纤,它是个完整的系统工程:交换芯片、网卡、光模块、光纤、连接器、协议栈、拓扑设计、运维软件,一个都不能少。就像搭积木,每块都得严丝合缝,才能让整个算力网络高效运转。
云数据中心还在升级400G时,AI训练集群直接把800G推到了前台,甚至把1.6T提前拉进了产业视野。Cisco的数据显示,2025年AI后端交换端口会以800G为主,2027年就快速迁移到1.6T。
光模块因此成了最直接的受益者。LightCounting预计,AI相关的光收发器市场2024年约50亿美元,2026年就破100亿;Cignal AI也说,2025年数据通信光组件市场收入会增长60%以上,超过160亿美元。
高速光模块通常需要DSP处理信号,但这会增加功耗和成本。于是LPO、CPO这些新路线冒了出来。
LPO去掉模块里的DSP,把部分处理交给交换芯片,低功耗低延迟但互操作性难;CPO把光引擎和交换芯片封装在一起,缩短信号路径但制造、散热更复杂。短期主流还是可插拔光模块,中期LPO会在特定场景放量,长期CPO可能在超大规模集群里打开空间。
投资光模块得看清楚:真正稀缺的是高速率设计能力、良率、客户认证和交付能力,不是所有光模块都一样。
中国企业在这条赛道上并不边缘。中际旭创、新易盛、天孚通信等已经深度参与全球高速光模块供给。Cignal AI提到的Innolight(中际旭创)和Eoptolink(新易盛),都是数据通信模块的主要供应商之一。这说明中国企业已经在全球产业链里占据了一席之地。
但这不是无风险的单边叙事。光模块需求高度依赖云厂商和AI资本开支:如果大模型商业化不及预期,或者云厂商阶段性消化库存,订单波动会非常剧烈。
更关键的是,速率升级越快,上一代产品价格跌得越快,企业必须不断砸研发和资本开支追赶下一代窗口,稍慢一步就可能被淘汰。
英伟达近期和康宁扩大光连接合作,说明AI基础设施竞争已经从芯片延伸到光纤、网络等底层环节。双方合作是为了提升美国AI数据中心光连接产品的产能:这意味着光互连不再只是供应链零部件,而是AI基础设施主权的一部分。
看懂光互连,不是记住400G、800G这些数字,而是理解算力扩张的物理后果:GPU越多,数据越要流动;模型越大,通信越重要;机柜越密,功耗越成边界。光互连的价值,就是把分散的芯片连接成“超级计算工厂”。
未来AI竞争表面是模型、芯片之争,深处却是带宽、延迟、能耗和工程交付之争。谁能用更低功耗、更高密度的光网络组织算力,谁就能让每一美元GPU投资更高效。
你觉得未来中国企业能在光互连赛道上占据主导地位吗?欢迎在评论区留下你的观点,一起聊聊AI时代的底层竞争!
热门跟贴