一颗AI芯片的测试成本,正在逼近它本身的制造成本。
这不是危言耸听。当HBM(高带宽存储器)堆叠到12层,当硅中介层面积膨胀到光罩极限,当芯片从单die变成多die的"拼图游戏"——测试环节被迫从幕后走向台前,成为决定良率生死的关键变量。Advantest的P93k产品线负责人Daniel Simoncelli打了个比方:「CPU是 heterogeneous(异构)设计,你得测试厨房里的所有东西;AI芯片是 homogeneous(同构)设计,同一个计算核心复制几千次,但每个副本都必须精确到比特。」
这种精确度的代价,是测试复杂度的指数级攀升。
从"抽检"到"全检":HBM改变了游戏规则
传统存储器的测试逻辑是概率游戏——抽检一批,合格即放行。HBM不行。这种3D堆叠的存储立方体,单颗封装里藏着8到12层硅片,每层通过数千个TSV(硅通孔)垂直互联。IBM Research的AI硬件工程师JohnDavid Lancaster指出:「HBM能占到整个封装成本的50%,一颗坏die埋进去,整颗芯片报废。」
这意味着测试必须前置到"已知良品堆叠"(Known-Good Stack)阶段。裸片测试、切片后测试、最终封装测试、系统级测试——四个关卡层层设防。更棘手的是,HBM的故障模式不在表面,而在那些微米级的通孔和混合键合界面里。测试设备需要穿透硅片,在三维空间里定位纳米级的缺陷。
Advantest的应对策略是streaming scan(流式扫描)——把测试数据像流水线一样持续灌入,而非传统的批量处理。这要求测试机台的带宽和算力同步升级,本质上是把AI芯片的并行计算逻辑,反向移植到测试设备上。
功耗震荡:被忽视的"隐形杀手"
AI加速器的测试场景,和实际运行场景存在微妙错位。Lancaster提到一个细节:「推理工作负载的启停会产生巨大的瞬态功耗波动。」翻译成人话:芯片在测试台上可能表现正常,但放到数据中心里,频繁的负载切换会让电源完整性电路承受压力,最终在现场宕机。
这种故障的隐蔽性在于,它不属于传统的"硬失效"(物理损坏),而是"软失效"(时序裕量耗尽)。测试工程师被迫在产线上模拟真实数据中心的工况——包括那些极端的功耗尖峰。这推高了测试时间和设备投入,也让"系统级测试"(SLT)从可选项变成必选项。
Simoncelli的描述更直白:「你得用定制化的软件栈去压榨这颗芯片,验证它是否算对了系数。」这里的"系数"指的是神经网络推理中的权重参数,一个比特的错误都会导致模型输出偏差。对于自动驾驶或医疗诊断场景,这种偏差的代价是人命。
光进铜退:测试接口的"代际断层"
AI芯片的I/O带宽需求,正在突破铜互连的物理极限。光学接口——CPO(共封装光学)和近封装光学——开始进入测试范畴。问题是,光模块的测试需要全新的探针卡和校准流程,而行业标准尚未统一。
更现实的瓶颈是物理尺寸。当封装尺寸逼近JEDEC托盘的承载极限,传统的机械手搬运方案面临失效风险。测试厂需要定制更大的托盘和更精密的拾取设备,这些投入不会体现在晶体管数量上,但会直接摊薄毛利。
一个未被充分讨论的趋势是:测试正在从"成本中心"向"价值中心"迁移。芯片设计公司开始把DFT(可测试性设计)团队前置到架构阶段,和前端设计师并肩作战。这种组织变革的底层逻辑很简单——后期补测试 coverage 的成本,是前期投入的10倍以上。
数据中心的"现场审计"
测试的终极形态,是芯片在用户手里自我诊断。Lancaster和Simoncelli都提到了in-system test(系统内测试)——AI加速器在数据中心运行时,持续采集电压、温度、误码率等遥测数据,回传给厂商的云端分析平台。
这模糊了"测试"和"运维"的边界。对厂商而言,这是风险管控的必要手段;对用户而言,这触及了数据主权和隐私的敏感地带。一台训练大模型的服务器,其内存里可能跑着未公开的算法或商业数据,芯片级的监控是否构成越界?
技术问题在此刻让位于治理问题。而治理问题的答案,往往比技术问题更难收敛。
Advantest的最新机台已经支持这种双向数据流,但部署比例仍然有限。更普遍的现实是:测试工程师仍在和JEDEC托盘尺寸、混合键合良率、光模块校准这些"低级问题"搏斗。AI芯片的宏大叙事背后,是无数这样的细节在决定成败。
当一颗芯片的测试成本占比从5%攀升到15%甚至更高,半导体行业的成本模型是否需要重写?而那个最先在测试环节建立系统性优势的玩家,是否会在下一代AI算力竞赛中悄然卡位?
热门跟贴