芯片制造商正开始借助AI管理从各类"仪表盘"中挖掘出的数据。这些仪表盘大多已内嵌于芯片和系统之中,用于监控从热梯度到电压跌落等各类指标。

打开网易新闻 查看精彩图片

仪表盘的工作原理与应用现状

这些仪表盘通常由某种处理器(如CPU或MCU)控制,在大多数情况下对用户不可见。但它们对于追踪不同模块、传感器和I/O所产生的底层数据变化至关重要,能够在必要时触发警报并自动完成调整,有时反应时间仅为几分之一秒。例如,若某个处理器核心温度过高,数据可被转移至其他处理单元以均衡负载、降低热量;若通往HBM堆栈的某条数据通道因电迁移而阻塞或速度过慢,信号可自动改道经由其他通道传输。

过去,这些功能各自独立管理,相互隔离,原因在于各模块采集的数据格式往往不兼容。而借助AI,不同类型的数据得以整合,从而在设备内部任意位置发现潜在问题,深入分析某一区域温度骤升或服务器机架性能下降的根本原因。再引入AI智能体,上述一切均可自主完成。

Movellus首席执行官Mo Faisal表示:"功耗领域的核心问题在于可见性。这种可见性必须足够快速、足够精细,才能覆盖整个电源网络。一旦掌握了全局状况,便可在后端进行分析并决定应对措施,而无需关心电源是如何接入芯片的。"

AI如何改变仪表盘管理

定位运行过程中问题根因的关键在于响应时间,例如热突刺或性能骤降。"热梯度是一个方向,IR压降是另一个方向,L(di/dt)事件又是一个方向。这些统称为电压跌落事件,影响极为显著。L(di/dt)会决定你的裕量和最低工作电压,而你需要的是与工作负载相关的可见性——通用可见性并不够用。它或许能告诉你最坏情况发生了,但你需要确切知道是什么时候发生的,当时系统中还有什么其他情况。只有这样,你才能采取行动,开始优化工作负载,无论是通过控制时钟还是电压,或是通过降低每秒指令数来调节输入数据。后续还有其他可调节的参数,但前提是你需要先了解正在发生什么。"

AI大幅简化了上述流程。ChipAgents首席执行官William Wang表示:"人们长期以来一直希望实现这一点。EDA供应商会去到客户那里,编写软件、搭建仪表盘,比如专门为晶圆厂构建一个仪表盘,将所有制造设备和测试设备的数据汇聚起来。但这种方式在硅生命周期管理(SLM)中并不奏效,因为它极为脆弱——一旦工艺流程发生变化,仪表盘就可能失效。这条路的收益并不理想,整个过程非常手动化、耗时,且难以推广。"

AI智能体通过提升数据抽象层级,从根本上改变了这一方式。Wang进一步说明:"我们拥有可以管理AI智能体的仪表盘。以调试为例,我们可以构建一个含有五个智能体的仪表盘,并实时查看它们各自的工作状态。部分智能体负责分析日志文件,另一些则分析波形,以判断流程中具体发生了什么。如果我同时有10个不同项目,我可以激活这些不同的智能体来聚合数据,然后查看结果。此外还有企业协作层面的需求:如何以团队方式协同处理同一个项目?如何聚合数据?答案仍然是仪表盘,但现在我们讨论的是用于管理AI智能体的仪表盘,而这些智能体负责从不同来源聚合数据。"

Synopsys系统解决方案战略项目执行总监Frank Schirrmeister对此表示认同:"我们发现,借助AI,许多过去因复杂性或难度而令人望而却步的工作——比如形式验证中对属性的学习——如今已不再那么困难。这些仪表盘本质上类似于硬件调试,而AI智能体现在能够接管过去依赖人工目视检查的环节,例如波形检查。现在,你可以借助一个或一组智能体,更快地找到问题根因。"

系统级数据的整合

领先的芯片制造商似乎已全面认可这一方向。Vinci首席执行官Hardik Kabaria表示:"英伟达构建的是AI基础设施,而不仅仅是芯片。基础设施意味着始终可用、随时可访问。你拥有一套支持推理的基础设施,而当前大多数推理是基于语言的,这带来了数据的大量涌现,而你希望通过仪表盘来理解这些数据。但人类所构建的一切——无论是芯片、系统、模型还是数据中心——都受物理定律的支配。你需要了解系统的某个部分在物理世界中将如何运行,但你希望以一种人人可理解的方式来实现,而不仅限于拥有机械工程博士学位的少数人。生态系统中的每个参与者都希望理解热传递、能量守恒、动量守恒等问题,以及它们对系统的影响:是否会产生热点?会产生何种工作负载?热点会影响内存吗?会影响共封装光学器件吗?一旦你能以高分辨率、制造规模级别获取足够的数据,便可借助仪表盘来理解这一切。"

随着越来越多的设计流程环节向前或向后延伸,这些仪表盘变得尤为重要。这本质上是一种并发的系统级设计方式,能够在一处访问信息,便于分析和协同设计。

Cadence战略与新业务高级集团总监Rob Knoth指出:"以往在人员与芯片的组织结构中,每个负责交付模块的团队需要在设计评审时向管理层汇报各自的数据,而不同团队使用的是不同的仪表盘,因为不同内容需要以不同方式衡量。但随着层级不断向上汇总,报告必须开始合并。你不得不问:我对这个模块做了形式验证,对另一个模块做了热量和功耗测量,还完成了设计规则检查(DRC)收敛,但这些分析是在同一套一致的数据集上进行的吗?这份用的是RTL版本12,那份用的是RTL版本10——两者根本没有关联,读起来极为困难。于是各组织自行编写脚本,开始进行数据挖掘,有些人甚至尝试构建一个'终极仪表盘'。"

工程师们现在寄望于AI来简化这一切。Knoth说:"我们现在关注的是工具在哪个深度层面实现统一。这也是我们从单纯聚焦芯片设计,转向关注多物理场和真正意义上的系统设计的原因。随着设计层级的提升,某些物理现象是无法忽视的。构建现代3.5D芯片时,你必须考虑热致应力和翘曲问题,还要关注凸点处发生的机械问题。因此,要有效设计整个系统,仪表盘必须足够丰富、易于访问,并涵盖多种工具。"

这也在一定程度上解释了近期对初创公司的投资热潮,以及围绕那些拥有成熟方法和工具的公司所发生的并购活动。

Siemens EDA硬件辅助验证高级副总裁兼总经理Jean-Marie Brunet表示:"在验证领域,我们的仪表盘越来越多地结合了智能体AI,因为你可以追踪KPI的演变。例如,性能或功耗指标可以通过仪表盘进行管理。智能体AI在这方面发挥了积极作用,因为它在编排所有这些步骤,而你可以在仪表盘中清晰看到收敛的过程。这并不是新鲜事,但智能体AI加速了这一进程。"

下一步是对数据进行细分,可以纵向深入分析,也可以横向跨越芯片、系统或设计流程中的不同工具和组件。Siemens EDA EDA IC软件执行副总裁兼负责人Ankur Gupta表示:"智能体AI有一个评估阶段,整个流程包括规划、执行和评估。评估环节所用的全部是仪表盘数据。以RTL到GDS的流程为例,验证是其中一个环节,RTL到GDS本身是另一个环节。每家半导体公司都有一套RTL到GDS的仪表盘。"

AI所带来的,是一种无论芯片或系统架构如何,都能提供一致视图的能力——前提是数据对AI可用。

Gupta进一步说明:"数据不一定要属于同一类型,但必须是结构化数据。有一个概念叫做本体论,用于定义每个阶段(如时序和功耗)的输入与输出。挑战在于如何跨越不同工具统一获取这些数据。如果你在测量功耗时,某个工具给出的是总功耗数字,另一个工具给出的是细分数据,还有某个工具不提供时钟功耗,那你的仪表盘就失去了意义。"

AI驱动的仪表盘

仪表盘这一概念由来已久。如我们所熟知的,现代仪表盘的原型源自汽车。尽管模拟压力表早在17世纪便已投入使用,但直到20世纪,人们才开始将速度表、发动机温度表、油压表、转速表和油量表等各类仪表统一安装在一块面板上进行集中监控。时至今日,为这些仪表盘提供数据的传感器仍是模拟与数字的混合形态,但分析处理已全面数字化。

在汽车领域,AI可以通过采集和处理来自不同传感器的数据(这些传感器此前各自孤立、按功能分隔)来识别潜在问题,并以所需的速度应对实际或潜在故障。这要求数据必须可访问、结构化,并且在安全关键应用场景中还需经过优先级排序。

Infineon应用营销经理Oscar Camacho表示:"你需要更多存储空间来保存这些数据。我们提供FRAM等存储器,支持在边缘侧进行多次读写操作。然后,你需要在计算机与终端节点之间传输这些数据,而终端节点可能是车辆中的电机驱动器或执行器。数据通过高速通信层传输,并由中央计算机进行实时处理。在我们自研的处理器内部,我们也在扩展处理能力,增加并行处理单元,以便在执行功能的模块处直接运行部分机器学习算法。"

真正的变化与其说在于数据量的持续增长,不如说在于数据的可用价值。Camacho说:"摄像头速度更快,舒适性功能也更多,数据量确实在增加,但可能远不如数据可用性的提升以及从中得出的结论那样显著。AI可以预测驾驶员的行为,可以根据电池衰减情况预测车辆维护需求。它使得从数据中做出更多智能决策成为可能,让汽车变得更加智能。"

将所有这些数据汇聚到仪表盘中,使其更易于理解。这也是数字孪生背后的核心理念,而智能体AI则可能提供一种比原始概念更精细、更轻量的实现方式。最终选择哪种方案,可能取决于成本、需要挖掘和监控的数据量,以及数据的重要程度。

无论如何,AI驱动的仪表盘在边缘侧将尤为有价值——那里的功耗比数据中心更为有限;而在数据中心内部,包含先进节点逻辑的多芯片组装体也需要更严格的监控,因为其在热量、噪声和加速老化方面的裕量极为有限。

Movellus的Faisal表示:"电迁移无法被直接测量,它以不同的方式表现出来。但你必须能够测量并采取行动。尤其是在2nm制程的超大型芯片上,硬件仪器化将变得极为重要。没有它,我认为功耗管理将无从实现。"

结语

仪表盘对几乎所有人来说都是一个熟悉的概念,但它所能提供的信息以及信息的使用方式正在发生深刻变化。重要的不在于生成的数据量本身,而在于从中提取可付诸行动的信息。需要挖掘、整理和访问的数据越多,仪表盘的价值就越重要。

Vinci的Kabaria表示:"问题不在于运行一次物理仿真。我们的客户在运行五十万次物理仿真,并问我们:'你能帮我创建一个仪表盘,让我可以指导我的工程团队吗?'不是一个人,而是整个团队,让他们聚焦于正确的工作,以打造下一代最优产品。"

而要实现这一点,早已超出人类能力的边界。Synopsys的Schirrmeister表示:"我们还没有进化到能够同时理解设计中28个不同特征仪表盘的组合的程度。AI将能够理解这些数据,并帮助发现潜在的因果关系和相关性。机器学习和大数据分析此前已能做到这一点,但AI让这一切变得更加易用,就像它让形式验证突然变得更加简单和易于应用一样。"

简而言之,未来的仪表盘将更具针对性、更加个性化,也更易于理解,并有望对芯片的设计、制造和使用方式产生深远影响。

Q&A

Q1:AI驱动的仪表盘在芯片领域能解决哪些具体问题?

A:AI驱动的仪表盘可以帮助芯片和系统快速识别并解决功耗和散热方面的问题,例如热点过高或电压跌落。通过整合原本相互隔离的不同类型数据,AI能够深入分析温度骤升或性能下降的根本原因,并在必要时自动采取调整措施,响应时间有时仅为几分之一秒。结合AI智能体,这些操作甚至可以完全自主完成,无需人工干预。

Q2:AI智能体是如何改变仪表盘数据管理方式的?

A:传统仪表盘的搭建高度依赖人工,流程繁琐且难以推广,一旦工艺流程发生变化就可能失效。AI智能体通过提升数据抽象层级,使不同来源的数据得以自动聚合和分析。例如,可以在一个仪表盘中同时运行多个智能体,分别分析日志文件和波形数据,从而更快速地定位问题根因,并支持团队协同在同一项目上开展工作。

Q3:未来的AI仪表盘在芯片设计和制造中会有哪些发展趋势?

A:未来的AI仪表盘将更具针对性、个性化程度更高,且更易于理解和使用。随着芯片设计向多物理场和系统级设计演进,仪表盘需要整合来自多种工具的数据,覆盖热致应力、机械问题等多个维度。此外,结构化数据和统一的数据本体论将是实现跨工具一致性视图的关键,而AI的引入将使原本需要人工处理的复杂分析工作变得更加高效和易用。