公众号记得加星标⭐️,第一时间看推送不会错过。
通信技术的发展始终朝着更高速度的方向迈进——从电话线到光纤,从3G到5G。然而,一项名为SerDes (串行器/解串器)的、已有数十年历史的技术,如今却在半导体行业引起了特别的关注。这项成熟的技术为何突然成为热门话题?
答案很简单:人工智能。
训练像 ChatGPT 这样的大型 AI 模型需要数千个 GPU 协同工作。挑战在于这些 GPU 必须交换的海量数据。无论单个 GPU 的性能多么强大,如果数据在它们之间传输的速度不够快,整个系统就会遇到瓶颈。
SerDes 是这条“数据高速公路”背后的技术。随着人工智能对带宽的需求不断突破现有限制,SerDes 已迅速从“锦上添花”的组件跃升为行业不可或缺的“关键技术” 。
SerDes 是Serializer和Deserializer的合成词。它的功能出奇地简单。
在计算机内部,数据沿着多条并行线路传输——就像一条八车道高速公路。然而,当在芯片或设备之间传输数据时,维持这种并行结构就变得非常棘手。“八车道”需要大量的物理线路,而且要同步所有八条线路的传输时间也极其困难。
SerDes方案非常巧妙:在出发点将8条车道合并成一条车道(序列化),到达目的地后再将其扩展回8条车道(反序列化)。但缺点是,这条单车道上的交通速度必须非常高。
打个比方,与其同时派出八辆货车,不如把所有货物都装上一列高速子弹头列车。这样就能通过单根电线传输数百Gbps的数据。
SerDes技术本身已经存在了几十年;USB、HDMI和以太网都采用了这项技术。然而,如今的格局已经发生了质的变化。
NVIDIA 最新的 AI 系统GB200 NVL72通过 NVLink 连接 72 个 GPU,每秒可交换约130 TB 的数据。为了更直观地理解 130 TB/s 的速度,这相当于在一秒钟内流式传输 6,000 到 10,000 部两小时的 Netflix 4K 电影(码率 15–25 Mbps)。
更重要的变化在于,“单个GPU”和“整个域”的容量同时增长。NVIDIA指出,第五代NVLink提供的GPU间双向带宽为1.8 TB/s ,约为2014年发布的第一代NVLink(160 GB/s)的11.3倍。
此外,随着链路速度的提高和 NVLink 域规模的扩大,自 2014 年以来,NVLink 域的总带宽增加了900 倍,在 576 个 GPU 的域中达到了1 PB/s 的水平。
市场也反映了这一现实。Kings Research预测,全球SerDes市场将从2024年的7.453亿美元增长到2032年的约20亿美元(复合年增长率为13.45%)。
超大规模数据中心运营商(人工智能基础设施投资的“巨鲸”)的资本支出也在急剧增长。DCPulse估计,亚马逊、微软、谷歌和 Meta四家公司的资本支出总额将在 2024 年达到 2244 亿美元,预计2025 年将达到 3150 亿美元。
虽然这些数字代表的是总资本支出(包括数据中心、服务器和网络),而不仅仅是“人工智能专项”支出,但方向很明确。例如,Alphabet将其 2025 年资本支出预期上调至 910 亿至 930 亿美元,而亚马逊则表示其 2025 年资本支出约为 1250 亿美元。
这笔天文数字般的投资中,相当一部分流向了交换机、网卡、光模块和GPU——而所有这些都依赖于SerDes。简而言之,没有SerDes,就无法构建人工智能数据中心。
这里存在一个有趣的悖论:虽然 SerDes 处理的是数字数据(0 和 1),但模拟电路设计方法却发挥着至关重要的作用。
原因在于速度。目前主流的 112G SerDes 每秒传输 1120 亿比特。在这种速度下,单个比特的持续时间仅为9 皮秒(9 万亿分之一秒)——光传播 2.7 毫米所需的时间。
在如此极高的速度下,导线不再仅仅是导线。信号在传输过程中会发生失真、衰减,并相互干扰。原本来自信号源的纯净方波到达时,看起来就像破碎的海浪。模拟电路的任务就是从这种失真信号中精确读取原始的0和1。
简而言之,虽然高速公路上的交通是数字化的,但道路铺设和交通流量控制却是模拟电路的工作。正因如此,高速模拟电路设计能力是串行器/解串器(SerDes)领域的核心竞争优势。
目前,112G是主流标准。将8条通道捆绑在一起即可形成800Gbps(800G以太网),这是目前人工智能数据中心的标准。
下一代224G以太网预计将于2025年投入量产,并在2026年实现显著普及。它同样采用8条通道,可实现1.6T以太网。预计到2028年,1.6T网络市场规模将达到130亿美元。
随着传输速度的提高,铜线的局限性也逐渐显现。业内人士估计,在112G速率下,铜线的有效传输距离会缩短至约2.0-2.5米;而在224G速率下,则会缩短至约1米。
这就是共封装光器件(CPO)——光通信的融合——日益受到关注的原因。CPO 将光模块直接封装在芯片旁边,以最大限度地缩短电信号的传输距离,并利用光进行远距离传输。NVIDIA 和 Broadcom 计划在 2025 年至 2026 年间发布 CPO 产品。
由于 SerDes 的设计和验证出了名的困难,许多芯片公司都购买了经过验证的 SerDes PHY IP 的许可。
展望未来,SerDes将进入224G量产竞赛(2025-2026年),这是目前最紧迫的问题:谁将率先大规模供应稳定的224G解决方案?这将决定未来几年的市场领导地位。目前,Synopsys、Cadence和Marvell处于领先地位。
与此同时,虽然电信号可以处理 224G 的传输速率,但要实现更高速率的传输,与光通信的融合至关重要。NVIDIA、Broadcom 和 Ayar Labs 等公司正在推出 CPO 产品,预计在 2027 年后将得到广泛应用。CPO 在超短距离传输方面尤其具有吸引力,这可能会降低某些领域对可插拔设备的需求。然而,根据实际应用需求、成本和标准化进程,CPO 和可插拔设备很可能会共存。
此外,NVLink 与 UALink的标准之争也是SerDes需要面对的另一个问题。
目前,NVIDIA 的 NVLink 是连接 AI 加速器的事实标准。然而,2024 年,AMD、Intel、Google、Meta 等公司联合成立了开放标准UALink ,并于 2025 年 4 月 8 日发布了UALink 200G 1.0 规范(拥有超过 85 家成员公司)。如果 UALink 成功,它可能会打破 NVIDIA 的垄断地位。反之,如果 NVLink 继续保持压倒性的性能优势,开放标准的发展势头可能会减弱。
但是,SerDes设计是一门要求极高的学科,涵盖模拟、数字和信号处理领域。在整个行业中,吸引技术人才已成为一项结构性挑战,而顶尖工程师的竞争也日益与公司的竞争力直接相关。
总而言之,SerDes 并不引人注目。它不像 GPU 那样参与规格之争,也不像 AI 模型那样频频登上新闻头条。然而,随着人们逐渐认识到 AI 时代的真正瓶颈并非“计算”而是“连接”,这种“无形基础设施”的价值也开始显现。
随着人工智能模型规模的扩大、GPU连接的增多以及数据传输速度的提升,SerDes的重要性只会与日俱增。最终,谁能让这项技术更快、更高效、更经济,将成为人工智能基础设施竞争中一场隐形的较量。
(来源:半导体行业观察综合)
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4299期内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴