凌晨两点,你的设计规则检查(DRC)终于跑完。屏幕上跳出提示:发现12.7亿条违规。这不是 bug,是2纳米芯片的日常。

更糟的是,这些报错在你看完之前就已经过时——模块接口又改了,约束条件又变了,下一轮迭代已经开始。传统"跑完再看"的工作流,正在把工程团队拖入死循环。

打开网易新闻 查看精彩图片

旧工具的妥协:为什么你只能看到几千条报错

传统 DRC 工具有个隐藏设定:故意限制报错数量。

不是不想给你看全部,是老技术扛不住。ASCII 格式的输出文件一膨胀,加载速度直接崩溃。工具厂商的解决方案很直接——每规则每模块只报几千条,剩下的等你再跑一轮。

结果就是工程师在猜:我看到的 5,000 条是真的全部,还是冰山一角?修复、重跑、再发现"惊喜"错误,这个循环烧掉的时间没人统计,但每个团队都懂。

原文把这种限制称为"practical compromise(实用性妥协)"。翻译一下:技术债转嫁给了使用者。

全实例追踪:第一次就要看到完整画面

新思路很直接——不妥协,全记录。

所谓"instance-complete(实例完整)"分析,意味着无论模块嵌套多深、实例重复多少次,每一条违规都被捕获。不是抽样,是普查。

Figure 2 的对比很说明问题:左侧是传统工具的局部视图,右侧是完整结果。差异不在于美观,在于决策质量——你第一次就能判断哪些错误是系统性根源,哪些是衍生症状。

原文强调了一个细节:这种完整视图"for every part of the chip(针对芯片的每个部分)"。没有盲区,没有"集成到一半才发现"的意外。

实时流式分析:边跑边看,边修边跑

等待整夜才能开始 debug 的模式,正在被流式处理取代。

Figure 1 展示的 Calibre Vision AI 界面,核心交互是"as the job runs(任务运行时)"——报错随出随看,工程师不用干等。配合 AI 驱动的分组功能,工具自动把十亿条原始条目聚合成可操作的"Signals(信号)"。

这里的"Signal"不是技术术语的滥用。原文明确说这是"real, actionable debug points(真正可操作的调试点)",区别于"line items in a mega-table(巨型表格里的行项目)"。

换句话说,AI 做的不是装饰性可视化,是噪声过滤和模式识别——把"哪里都错"翻译成"这里错了,影响这些"。

协作闭环:从个人救火到团队作战

先进节点的 DRC closure 从来不是单人任务。模块接口在变,约束在漂移,需要多角色同步决策。

实时分析的价值不止于提速,在于创造了共享的决策窗口。当所有人基于同一时刻的完整数据讨论优先级,"你跑的是哪个版本"这类对话可以减少。

原文没有展开协作工具的具体设计,但点明了目标:"keeping everyone coordinated(让所有人保持协调)"。在十亿级报错的压力下,协调本身就是工程挑战。

AI 的务实定位:辅助,而非替代

值得注意原文的措辞边界。

AI 被描述为"helpers that cut down the noise(削减噪音的助手)"和"AI-guided(AI 引导的)",没有出现"自动化""自主决策"这类表述。分组功能基于"analyze how violations are related(分析违规之间的关联)",是相关性聚类,不是根因推断。

这个分寸很重要:工具负责压缩信息维度,判断和修复仍由工程师执行。在芯片设计的责任体系里,这是必要的保守。

为什么现在必须换工作流

2纳米及以下的设计规则复杂度,正在指数级增长。原文没有给出具体数字,但"billions of violations(十亿级违规)"这个量级本身已经说明问题——人类无法直接处理的数据规模,必须借助中间层工具。

传统"run-then-debug-then-re-run"的瓶颈不在于单次运行速度,在于反馈周期与迭代频率的错配。当设计变更以小时计, overnight 的等待就是系统性延迟。

实时、完整、AI 辅助的分析,本质是把 DRC 从"阶段性关卡"重构为"持续对话"。这不是性能优化,是工作范式的转移。

冷幽默

芯片行业的黑色幽默:我们花了二十年把晶体管做到纳米级,现在要花同样多的精力,去管理这些晶体管产生的报错信息。好消息是,终于有工具能帮你从十亿条里找出该先修哪条;坏消息是,报错数量还在涨,而你的睡眠不会因此回来。