公众号记得加星标⭐️,第一时间看推送不会错过。

可靠性现在是一个系统级问题,涵盖了从材料和包装到背面供电测试的方方面面。

  • 芯片组和3D-IC架构引入了新的热机械应力,可能会影响整个系统的可靠性。

  • 随着芯片组被组装成封装,系统中每个组件的缺陷率目标也变得更加严格。

  • 传统的部门壁垒正在被打破,迫使设计团队解决以前由代工厂负责的材料选择等问题。

数据中心对基于芯片组的架构的快速采用,正迫使设计的各个方面发生巨大变革,从芯片组到封装再到现场应用,无一例外。成本迅速上升,可靠性问题日益突出,以往降低成本并确保设备按预期运行的方法已难以为继。

如今,关注点不再仅仅局限于电迁移和电源完整性,还包括热机械应力,这些应力会因工作负载、互连的数量和类型以及沿 Z 轴方向的设计延伸范围而变化。建模必须精确,并且需要在电路和系统层面都充分理解缓解策略。EDA 工具也在不断发展以应对这些问题,并集成了应力分析、材料管理和接口验证等新功能。

“对于芯片组和3D集成电路而言,可靠性是最大的挑战,”西门子EDA中央工程解决方案总监Pratyush Kamal表示。“情况变得非常严峻。芯片组的设计必须满足一定的缺陷率、可靠性和约束条件。假设你有一个单片芯片,其设计缺陷率(DPPM)为百万分之十。当你决定采用芯片组方案时,你用两个这样的芯片组代替一个单片芯片,或者三四个。现在,每个芯片组都可能在封装内单独失效,而封装本身也可能引入新的失效模式。这意味着,为了达到单个芯片组的目标缺陷率,每个芯片组都需要设计得非常低。这意味着二维设计的基本方法必须改变。”

理论上,芯片组之所以能提供帮助,是因为它们比片上系统 (SoC) 更小、功能更有限,从而降低了复杂性和差异性,并使其更易于验证、检查和测试。“它们不会带来更多挑战,有时甚至还能简化问题,” Cadence的杰出工程师 Moshiko Emmer 表示。“想象一下,有人在设计一个系统,与其使用单个 SoC,不如将其分解为多个芯片组,通常围绕某些特定功能。这意味着每个芯片组都是一块更小的硅片,包含的内容也更少。有时,它包含片上网络 (NoC) 以及围绕特定功能的一些特性。在某些情况下,它需要支持更低的时钟频率或更低功耗的场景。芯片组可以简化很多事情。”

打开网易新闻 查看精彩图片

图 1:分解与专业化。来源:Bryon Moyer

其他人也认同这一观点。“芯片组(Chiplet)能够提高可靠性,因为你可以使用适合特定电路的技术,” Quadric的首席技术官兼联合创始人 Nigel Drego 表示。“随着工艺尺寸的缩小,模拟电路的制造变得越来越困难。SRAM 的微缩速度在 3nm 左右就停止了,如果你在努力从工艺中获得所需的功能,那么你就没有太多时间和精力去提高可靠性,因为你只能专注于功能本身。如果你能够使用最适合特定应用电路的技术,那么就会发生两件事。首先是成本降低。如果你能够将模拟电路保持在 12nm 的工艺水平——这是一个非常成熟的工艺,已经折旧,电路设计师已经用它做了很多工作,而且进一步缩小工艺尺寸也不会带来任何收益——那么为什么不直接使用它呢?”

然而,芯片组的可靠性和良率只是问题的一部分。如今的封装工艺更加多样化,用于将这些芯片组连接到中介层或基板上的互连和键合方式也各不相同。随着芯片组技术的普及,所有这些都可能发生变化,但这需要时间。

德雷戈说:“这只是暂时的,很快就会解决,因为把芯片放到印刷电路板上比把芯片放到硅片上要难得多。在硅基板上,由于控制得更好,整体干扰可能会更小。”

不过,多芯片组件中有很多新元素,从更薄的芯片和不同的粘合材料到复杂的互连方案和布局图。

Synopsys产品营销总监Marc Swinnen表示:“除了众所周知的可靠性问题外,还出现了一系列以前无关紧要或被归入封装层面的新型可靠性问题,就像打开了潘多拉魔盒一样。在单片设计中,人们会在封装层面考虑这些问题。但现在,这些问题已经涉及到3D-IC的布局规划。芯片组和3D-IC的主要可靠性问题是机械翘曲和应力,因为翘曲会导致机械裂纹。而应力不仅会导致长期失效,还会改变器件的电气性能。”

EDA公司目前正与代工厂合作,研究应力如何影响电子器件的性能。“晶体管在制造过程中就特意预留了应力,以获得所需的特性,因此应力对于设计而言并不陌生,”斯温宁说道。“但外部应力会改变晶体管的电学特性。我们能否通过计算来确定应力的大小?这方面的研究尚未完全完成。”

从芯片到封装的方法和技术仍在不断发展。“过去,每个封装都只有一个硅芯片,我们采用分而治之的策略,将SoC芯片领域与封装领域完全割裂开来,”Cadence公司的Emmer说道。“SoC架构师、设计师、验证工程师、物理设计师等等,都专注于SoC内部的一切。封装工作只是在之后进行,两者完全分离。当然,双方之间也存在某种默契,比如‘这些是我需要告知封装的芯片边界条件。我需要指出凸点的位置、电气特性、电源需求等等。当然,我的设计也基于这些约定,并且满足这些规范。’然后封装会将这些信息作为输入,并确保周围的一切都与之兼容。但两者是完全独立的。芯片设计完成后,就进行流片。封装工作在接近流片时才开始,并在之后继续进行。而芯片组的出现正在彻底改变这一切。”

热机械应力

芯片组最大的变化之一是需要关注热机械应力,这通常是由于不同材料的热膨胀系数 (CTE) 不同造成的。

Synopsys 的 Swinnen 解释说:“在组装这些芯片时,他们必须将这些芯片相互推压,以使键合牢固,而制造过程中外部会产生机械应力。” “我们多次收到客户的请求,希望能够模拟制造过程中产生的应力。在与一家代工厂交流时,他们表示,将这些芯片组装在一起并相互挤压时,将这些微小的焊点压在一起所需的力并不大。但当数量达到数百万时,它们所承受的压力就相当大了。此外,芯片允许一定程度的凹形弯曲。凹形弯曲的程度是有限制的,但绝对不能凸形弯曲。因此,除了内部的热机械应力之外,还必须考虑外部应力。此外,还有热循环、分层问题以及焊点开裂等问题。这些微小的焊点数量众多,它们非常细小,却承载着巨大的电流,因此会引发可靠性问题。”

3D集成电路带来了其他挑战,例如硅通孔(TSV)的连接。“可靠性问题就此凸显,同时还有一些传统问题,例如电源完整性,”斯温宁说道。“现在,一旦完成,就不仅仅是芯片本身的问题了,而是整个系统的问题,这使得问题变得非常棘手。静电放电也是如此。现在,你需要建立贯穿多个芯片组的静电放电路径。如何验证这些路径的安全性?这确实加剧了问题的复杂性。此外,还有一些新的问题,例如机械应力和翘曲,”斯温宁补充道。

不同的材料带来了其他挑战。“芯片设计师以前从不用担心材料问题,”他说。“代工厂负责铺设材料,一切都是固定的,仅此而已。但一旦涉及到中介层,在散热和热界面方面就出现了各种各样的选择和方案。封装人员以前总是会遇到一些问题,而现在芯片设计师必须更多地参与其中。因此,材料选择和材料管理方面面临着迫在眉睫的挑战。”

从工艺技术入手

由于电路可靠性始于工艺技术,因此大部分关注点都集中在工艺技术上。“当我们观察鳍式场效应晶体管(FinFET)、纳米片以及大量的逻辑门时,它们看起来非常均匀——至少在一定的金属层厚度范围内是如此,”西门子EDA的Kamal说道。“在前端工艺(FEOL)中,晶体管层上的鳍片是连续的。但即使在前端工艺中也存在挑战。例如,一家代工厂在制造基本的与非门(NAND gate)时就出现了大规模失败,这种门由两个串联的晶体管组成。在一个标准单元中,有两种类型的连接,一种是I/O连接,另一种是电源传输连接。那么,哪个节点更容易受到噪声的影响呢?”

当1000个标准单元实例被放置在芯片上时,它们所处的环境截然不同。“这些工艺中存在大量的局部和全局差异,而且随着工艺复杂性的增加,这种差异也在不断增大,”Kamal说道。“你需要确保电路节点不易受噪声干扰。你需要控制I/O的时序,使其在布局布线过程中不会发生太大变化。你需要在布局上尽可能地集中I/O,使其位于标准单元内部,而不是暴露在标准单元的边界之外。这家代工厂的做法恰恰相反。你应该使用电源和接地来连接标准单元外部的左右两侧,并使用标准连接来连接I/O。但他们却反其道而行之。结果,当团队尝试对这些库单元进行布局布线时,他们无法使σ之间的时序闭合。”

在芯片和3D集成电路设计中,晶体管级的问题更为复杂。“虽然设计人员在标准单元层面能做的有限,但代工厂可以,因为他们提供库单元,”Kamal说道。“代工厂必须确保在设计这些库单元时考虑到这些基本要素。以触发器为例,任何锁存器结构都存在故障点。跨畴交叉、电压畴交叉、畴交叉和复位畴交叉等问题,在设计标准单元时都必须非常仔细地考虑。目标DPPM必须比以往任何时候都更低。”

然后,在模块级别,复位域交叉必须精心设计,因为对于芯片组和3D集成电路而言,目前流程中存在一个致命缺陷。当芯片返厂后发现无法正常工作时,工程团队需要进行调试。

“您使用 IJTAG 接口来查看芯片内部,但有时您会发现一半的元件状态为 0,另一半元件状态为 1,这就是故障的原因,”Kamal 解释道。“但是,在您重新设计和重新制作掩模之前(因为掩模成本高达 2000 万或 3000 万美元),您需要进行更多调试。您需要确保您的假设是正确的。我们使用聚焦离子束 (FIB),从硅片的背面进行操作,并对电路进行修改,因为晶体管位于前端工艺层 (FEOL)。我们通常限制 FIB 的使用范围,使其靠近晶体管的源极和漏极以及栅极。从背面操作很容易。目前背面没有金属层。而正面则有很多金属层,您不能切穿它们,否则会损坏电路。”

但背面供电技术的出现改变了这一切,英特尔从20纳米(20A)工艺开始采用这项技术。“如果你观察一个3D-IC堆叠结构,你会发现每个3D-IC堆叠结构都会有一层背面带有金属层,所以你不能再使用FIB工艺了,”他说道。 “既然失败已不再是选项,我们该如何应对?

在模拟电路中,我们采用基本的冗余设计。如今,我们在汽车领域采用双重甚至三重冗余。在汽车领域,我们使用锁步核心等技术,但这是一种成本极高的冗余方式。现在,我们必须将这种粗略的冗余概念细化,因为3D-IC的成本很高。这些2nm制程节点极其昂贵。我们必须不断优化它们。我们不能采用两个双核处理器,一个发生故障时,另一个就派上用场。服务器目前就是这么做的。英特尔之所以还能最大限度地利用其处理器,是因为其设计的特性——大量重复,允许部分故障。在多个计算领域,我们都采用了这种做法,但在移动领域以及3D-IC技术的应用领域,布局或架构的同质性并不高。冗余固然重要,但我们需要以更低的成本来实现它。”这样就可以实现最佳冗余,而不仅仅是复制核心。”

将这些基础可靠性策略与系统级集成的实际情况相结合,凸显了随着复杂性的增加,采用整体方法的重要性。鉴于此,讨论的重点转向了在单个系统中管理多个芯片时至关重要的架构和封装方面的考量。

在设计多芯片芯片时,必须在架构和规划阶段考虑封装因素,这与传统的 SoC 项目生命周期相比,时间点非常早。

Cadence公司的Emmer表示:“当你考虑构建一个由多个芯片组成的系统时,首先,你可以构建更大的系统,并且可以在同一个封装中集成更多的硅片。这些芯片是独立的,是独立的芯片单元,你需要考虑一些因素来确保你的设计符合规范。例如,如果你想为边缘设备开发产品,你需要满足特定的可靠性要求。如果你想为数据中心或基础设施领域开发产品,则需要考虑不同的方面。当我设计一个由芯片组成的系统时,芯片采用的是成熟的工艺节点还是较新的工艺技术并不重要。通常情况下,我们会看到两者的混合使用,我不仅需要考虑如何在各个芯片之间分配组件,还需要考虑如何将这些芯片集成在一起。此外,我还需要选择使用哪种集成解决方案。”

芯片集成有多种选择。“我们可以通过基板进行更简单的集成,例如有机基板、简单的UCIE封装,以及标准封装集成,”Emmer说道。“我们可以使用中介层或桥接器进行更高级的集成,并排或堆叠芯片以及混合键合技术也正在发挥作用。所有这些都需要在架构和设计阶段就加以考虑。业界还需要引入新的EDA解决方案和工具来验证这些条件,因为从可靠性的角度来看,互连可靠性失效的途径可以分为两类。一类是互连线本身,无论是信号还是电流,都会导致金属线随时间推移而退化。这是其中一种类型。更常见且更棘手的失效发生在任何连接处,任何线路与其他元件之间的接口处。”

随着这些架构和集成方面的挑战得到解决,研究可靠性问题在新形势下如何演变至关重要。这体现了现代芯片技术及其相关封装解决方案的持续发展以及由此产生的独特可靠性考量。

“就目前的芯片而言,尤其是在这个领域仍处于发展初期,所有研发工作仍在进行的情况下,它还不是一项成熟的技术,并非所有产品都已完全投入生产,我们目前看到的只是微小的进步,”埃默尔说道。“它仍然处于快速发展阶段。我们需要关注一些新的因素,这些因素会影响到连接部件以及用于传输信号的材料本身的可靠性。例如,RDL中介层。这是一个全新的技术。信号如何在其中传播?这对可靠性有何影响?”

有些情况下,设计可能勉强符合规格要求。但即使在芯片封装完成后进行了测试,并且测试结果显示合格,芯片在实际应用中仍然可能出现故障。

“随着系统问题越来越多,你需要能够在封装级别进行这种类型的验证,其中还要包括超出边界规格的信息(就像我们过去所做的那样)——以及在进行封装级分析时芯片的内部信息,”埃默说。 “可靠性是其中至关重要的一部分,它不仅考察实际接口和实际连接,还考察需要通过线路传输的信号。如果两个芯片并排集成,信号需要传输的距离就会增加。可以将 UCIe 视为连接两个芯片的接口。这是一种并排连接。芯片并非位于接口上方。它们之间的距离并非为零。它们之间存在一个中介层。中间有一个接口将它们连接起来。使用 UCIe,这种连接可达 25 毫米。因此,我们需要考虑从芯片级的微米级精度提升到芯片间级的毫米级精度。这种信号必须保持可靠且不受干扰。我需要在构建系统之前对其进行测试或模拟。否则,我将无法保证其运行。展望未来 5 到 10 年——届时可能会出现芯片市场,您可以将芯片放在货架上,任何人都可以购买。”将其集成到系统中——所有这些都需要明确规定。芯片的边界也需要明确规定,因为你无法预知谁会将其集成到系统中,采用何种封装,以及与其他哪些组件集成。所有这些都必须定义并标准化,但目前这方面还没有统一的标准。

结论

芯片组具有变革芯片行业的潜力,能够显著提升芯片的灵活性和可扩展性。但它们也带来了一些复杂的挑战,涉及可靠性、集成性和标准化等问题,必须从开发初期就认真应对。尽管封装和接口标准的进步令人鼓舞,但成本和接口知识产权方面仍然存在的担忧凸显了持续合作与创新的必要性。

为了实现这一切,业界必须优先考虑稳健的验证方法,以确保无缝集成和长期功能性。最终,基于芯片组的系统的成功将取决于技术进步与解决这些悬而未决问题的切实方案之间的平衡。

https://semiengineering.com/chiplets-and-3d-ics-add-new-electrical-and-mechanical-challenges/

(来源:semiengineering)

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4319期内容,欢迎关注。

加星标⭐️第一时间看推送

求推荐