公众号记得加星标⭐️,第一时间看推送不会错过。
现代人工智能基础设施面临的主要挑战不仅在于单个加速器的性能,更在于如何扩展到集群中数千个加速器(XPU)。如今,训练和推理工作负载依赖于一种互连机制,该机制能够将这些加速器连接成一个高带宽、低延迟的系统,而在这个系统中,性能不仅取决于计算能力本身,也取决于网络性能。
随着这些系统规模的扩大,物理定律开始发挥作用。由于布线密度和通道损耗的叠加,铜线上的电链路会达到一个实际的瓶颈,损耗带宽积会成为一个无法逾越的限制。摆在我们面前的选择只有两个:要么将电光转换电路移到更靠近专用集成电路(ASIC)的位置,要么放弃链路预算。因此,为了突破这一电气瓶颈,光学器件必须从电路板边缘迁移到ASIC封装内部。
这种演进并非架构上的偏好,而是物理上的必然。所有严肃的规模化扩展路线图最终都会殊途同归:光接口从前面板模块(包括基于光引擎的可插拔模块)迁移到近封装光模块(NPO),最终迁移到与计算芯片集成在一起的共封装光模块(CPO)。CPO 本身并非最终目标,而是互连带宽扩展的必然结果。
瓶颈转移进行测试
如今,硅光子平台展现出卓越的功能和带宽密度,但该行业正面临制造瓶颈。长期以来,光学测试一直是一种专业化、小批量生产的操作。测试单元通常是定制的,需要大量的对准工作,且仅限于单一地点。光学仪器通常以机架堆叠的形式部署在自动化测试设备 (ATE) 生态系统之外,其吞吐量以分钟而非秒来衡量。虽然这些方法足以满足实验室和中试生产线的需求,但在高通道数和高产量生产中却难以应对。
问题不在于测量的严谨性,而在于大规模生产的效率。随着光学器件向专用集成电路(ASIC)内部移动,我们仍然需要相同水平的测试覆盖率,但要实现集成电路级别的并行性、可重复性和自动化。
主流ATE测试头的实用优势在于其高密度仪器和原生多站点架构,使得一个测试程序能够在一次测试中跨多个器件运行。这种高效性源于ATE能够同步复杂的高并行任务,例如协调所有站点的激光扫描和功率计采集。为了在光晶圆测试中更好地实现这种系统级协调,新一代光电探针卡将光探针头和卡上精细对准功能直接集成到探针卡中。这种集成架构使得光晶圆测试能够借鉴半导体行业的大批量生产模式。
左移或自行承担成本
由于光学功能被集成到多芯片模块 (MCM) 中,只有在 CPO 集成 XPU 封装完全组装完成后,才能发现其全速率光学特性——此时已经增加了大量的硅价值,并且返工可能受到限制或无法进行。
光器件不再是可插拔模块;它们被集成到引擎和芯片组中,与专用集成电路 (ASIC)、存储器和基板共同封装。在这种集成度下,单个光通道的故障就可能导致整个高价值组件报废。
因此,后期发现缺陷在经济上是不可行的。唯一可行的策略是将有意义的光学测试提前到制造流程的早期阶段,特别是晶圆级,但前提是这些早期测量结果具有预测性,并且与最终组件的全速性能相关。这种逻辑在半导体制造领域并不陌生,但对于集成光学器件而言,其影响更为严重,因为后期缺陷造成的经济损失非常巨大。建立“已知良好X”(KGx)认证已不再是可选项:其中“X”是指在集成到更高价值的组件之前,需要通过认证确认为已知良好的单元——芯片、光学引擎或芯片组。
上图展示了测试时序对制造成本的直接影响。随着器件在组装过程中不断推进,缺陷检测的成本会变得异常高昂,因此“左移”测试成为实现可扩展制造经济效益的基本要求。该策略优先在晶圆级进行周期短、高度并行的测试,这与光学器件集成到完整的 CPO 集成 XPU 模块后所需的周期长、资本密集型测试形成鲜明对比。
统一的光学测试插入框架
扩展光学测试需要一个结构化的框架,其中包含明确的测试插入步骤,从而为设计、测试和制造提供通用语言,下图展示了这种层级结构:
插入步骤 1(光子集成电路晶圆):利用电学和光学参数测量对光子集成电路晶圆进行筛选,尽早确定已知良品 (KGD)。此初始筛选采用高并行光学扫描生成晶圆的参数图,其中可能包括关键光谱特性、调制器效率和偏振相关损耗 (PDL) 测量。通过及早识别缺陷组件,可以避免将缺陷硅集成到高价值下游组件中而导致的指数级成本。
插入步骤 2(PIC + EIC):此步骤发生在光子集成电路和电子集成电路键合之后,代表多芯片集成的第一阶段。可以高速测量电光传输特性,并将其与初始晶圆级结果(例如,调制响应、眼图质量和其他高速性能指标)进行关联。这种关联可确保键合或芯片贴装工艺没有降低 PIC 的性能,同时还能评估芯片间互连的健康状况。
插入步骤 3(光引擎):光引擎或芯片在光纤连接或连接器安装后,进行最终校准和功能测试。这些测试确定组件的 KGx 状态,作为防止缺陷单元扩散到多芯片模块的最后一道防线。此阶段的验证通常还包括链路预算验证和热特性分析,以确保光纤到芯片的耦合在整个工作温度范围内保持稳定。
虽然最终测试插入(包括 CPO XPU 和系统级组件)同样至关重要,但它们的主要作用已转变为验证整体功能。最终测试插入并非发现组件级良率问题的环节。通过将发现问题的责任转移到早期以 PIC 为中心的插入环节,这种结构化方法确保在生产流程中最具成本效益的阶段管理良率。
将光学器件视为一项特殊测试,向集成电路式测试方法的转变已经开始。这种理念如今已从晶圆级扩展到芯片级(插入3),在此阶段,挑战在于验证集成组件。
面向测试的设计:共同的责任
随着光学器件逐渐发展成为类似集成电路的制造难题,设计和测试必须在产品周期的早期阶段就实现融合。可扩展的光学测试不能作为开发的最后阶段进行后期添加,而必须由设计阶段就明确启用。因此,光学可测试性设计(DfT)不再是锦上添花,而是必不可少。
具体架构特征决定了设备是否可以经济高效地进行大规模测试:
接入点:设计中必须集成用于参数测量的特定接入点。这些接入点可以包括专用的光学DfT路径和集成的监测二极管,以便进行原位结构检查。
关联支持:需要内置支持来关联不同测试插入件之间的数据。通过在晶圆级筛选期间烧录唯一 ID 和校准微调,可以创建数字印记,从而确保下游测试插入件的参数可追溯性。
并行测试策略:并行测试对于高吞吐量测试至关重要,它能最大限度地利用测试仪资源并支持多站点运行。在不影响测量完整性的前提下,支持所有发射/接收通道的同步调谐和校准,是满足人工智能级节拍时间的关键。内置自测试 (BIST) 通过生成高速激励信号并利用环回功能对通道进行原位筛选,进一步增强了这种并行性,从而减少了对外部光学仪器的依赖。
如果没有这些前端考虑,即使是最先进的ATE基础设施也很难维持良率、测试覆盖率和周期时间目标。
对于测试领域而言,其含义很明确:该行业必须摒弃传统的光模块时代做法,转而采用利用现有半导体基础设施的集成式自动化解决方案。
规模化人工智能网络依赖于光学技术,而光学技术如今又依赖于测试。最初以实验室为中心的专业实践,现在必须发展成为一流的制造能力,并与数十年来支撑半导体微缩发展的严谨方法保持一致。
这一转变需要深度协作。
涵盖设计、测试、仪器仪表和制造等各个环节,并且整个生态系统已在稳步推进。随着规模化人工智能集群的发展,光学器件必须遵循与大批量电子产品相同的可制造性设计(DfT)、左移测试和自动测试设备(ATE)驱动的制造模式。未来几年的指导原则很简单:如果不能像集成电路那样进行测试,就无法像集成电路那样进行规模化生产。
(来源: 编译自 marvell )
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4418内容,欢迎关注。
加星标⭐️第一时间看推送
求推荐
热门跟贴