一阶逆优化的深层物理先验|mcmc|微分|深层物理先验|算子|贝叶斯|逆优化

Deep Physics Prior for First Order Inverse Optimization

https://arxiv.org/pdf/2504.20278

摘要

逆向设计优化旨在通过观察到的解来推断系统参数，在半导体制造、结构工程、材料科学和流体力学等多个领域中面临关键挑战。许多系统缺乏明确的数学表达形式，这使得该过程变得复杂，并导致一阶优化无法实现。主流方法包括生成式人工智能（Generative AI）和贝叶斯优化（Bayesian Optimization），虽然能够应对这些挑战，但仍存在局限性：生成式AI计算成本高昂，而依赖代理模型的贝叶斯优化则在可扩展性、对先验分布的敏感性以及噪声问题方面表现不佳，常常导致次优解。本文提出了一种新方法——深度物理先验（Deep Physics Prior, DPP），该方法能够在使用代理机器学习模型的情况下实现基于梯度的一阶逆向优化。DPP通过利用预训练的辅助神经算子（Neural Operators），施加先验分布约束，以确保解的鲁棒性和物理意义。该方法在先验数据和观测分布未知的情况下尤为有效。

1 引言

逆向设计优化旨在根据观测到的解（u∗）反推目标或参数（f），使其成为多个学科中各种实际场景下的基本方法。例如，在结构工程中，逆向设计可用于基于传感器数据推断损伤的位置和程度；在芯片设计中，逆向光刻技术在优化芯片图案以提高可制造性方面起着关键作用；在材料科学中，它被用于识别能产生特定性能（如热导率或弹性）的原子或分子结构；在空气动力学中，逆向优化被广泛应用于翼型设计等任务。这些实例凸显了逆向设计在众多领域中的广泛应用和深远影响。

MCMC方法的局限性。求解逆向优化问题通常需要一个代理模型来近似系统的正向行为。这些模型常通过贝叶斯优化或马尔可夫链蒙特卡洛（MCMC）方法进行查询（Cotter等，2013）。然而，代理模型通常依赖有限元分析或严格的数值模拟，计算成本极高。为应对这些挑战，数据驱动的生成式AI方法近年来受到广泛关注。其中，傅里叶神经算子（FNO）已成为解决基于物理的逆问题的前沿方法，在性能上比传统代理模型快达400倍（Li等，2021）。尽管FNO具有优势，但基于FNO的方法仍继承了MCMC的局限性，例如依赖启发式探索，且忽略了问题背后的物理规律。此外，MCMC未能利用FNO的可微分特性，进一步限制了其潜力。

生成模型的局限性。另一种常见方法是训练生成式AI模型，直接预测逆向解（Yang等，2020；Huang等，2024；Long & Zhe，2024；Yang & Ren，2024）。然而，这类模型的性能高度依赖于底层数据分布。如第4节所示，当训练数据包含混合分布时，生成模型倾向于逼近这些分布的加权平均值，导致预测的逆向解含有噪声，需要额外的微调或优化才能获得满意结果。

为何不能直接使用一阶优化？一阶优化利用梯度信息高效地向最优解逼近，相比MCMC的随机游走行为，能显著加快收敛速度。随着算子学习提供了可微分的代理正向模型，理论上已可行通过梯度反向传播来推断所需的逆向解（Azizzadenesheli等，2024）。然而，这种方法并不像表面看起来那么简单。FNO系列作为数据驱动神经网络的核心，虽然可微分，但极易受到对抗样本的影响。因此，基于梯度的方法常常生成分布外的逆向解，实质上制造了对抗样本。

我们的贡献。我们提出了深度物理先验（DPP），这是一种仅使用数据驱动代理模型即可进行基于一阶优化的逆向设计求解的新方法。DPP结合了一个作为代理模型的前向傅里叶神经算子（FNO），以及一个作为物理先验的辅助FNO，以抑制对抗样本的生成。本工作的主要贡献如下：

• 基于FNO的优势：DPP继承了FNO的优点，包括分辨率不变性和支持自由超分辨率能力，使其在各种逆向设计任务中具有高度适应性。

• 纯数据驱动方法：DPP是一种完全数据驱动的方法，特别适用于数据分布未知、或缺乏精确且显式数学表达的问题。

• 在案例研究中的卓越性能：通过对2D达西流（Darcy Flow）的大量实验表明，DPP显著优于其他替代方法。具体而言，与直接生成式AI方法相比，其相对误差减小了68.5%，同时保持了高计算效率。在逆向光刻问题中，我们的方法比当前最先进的数值优化器减少了21倍的边缘放置误差，并实现了10倍的速度提升。

2 相关工作

傅里叶神经算子（Fourier Neural Operator, FNO）。FNO（Li 等，2021）是一种数据驱动的学习方法，用于在离散化域中求解偏微分方程。其核心组件是通过在傅里叶域中计算的核积分算子，对表示进行迭代更新。每一层积分层的表达式如下：

GAN 与 GANO。生成对抗网络（Generative Adversarial Networks, GANs）（Goodfellow 等，2014a）是生成式学习中最成功的范式之一，尤其在有限维空间中进行无监督数据分析方面表现突出。一个 GAN 包含两个组件：生成器，将高斯潜在空间映射到数据空间；判别器，用于区分合成数据分布与真实观测数据分布。生成对抗神经算子（Generative Adversarial Neural Operator, GANO）（Rahman 等，2022）将 GAN 框架扩展至无限维函数空间，通过用神经算子层替换生成器和判别器，并在函数空间中构建训练指导。这种扩展使得 GANO 能够从一个高斯随机场（GRF）映射到数据分布，从而有效生成无限维空间中的数据。需要注意的是，GAN 和 GANO 都依赖于已知数据分布的假设，它们在训练过程中利用该假设来有效地区分并生成样本。

对抗采样。自深度学习兴起以来，对抗攻击已成为一个重要的研究领域（Goodfellow 等，2014b），主要关注提升深度学习模型的鲁棒性和安全性。该领域的关键见解是：由于训练数据的离散特性以及模型的过度参数化，所有基于数据的深度学习模型都容易受到对抗样本的影响。这种脆弱性在使用预训练代理模型进行逆向设计任务时构成了重大挑战。最近的一项研究（Liu 等，2023）通过一种名为 LADA 的对抗性数据增强框架探索了这一现象。LADA 的设计目标是生成可能使预训练制造仿真模型预测失败的芯片布局。该方法采用基于 GAN 的框架生成芯片设计图像，并在生成过程中对 GAN 生成器的输入应用梯度上升法以反向传播梯度。值得注意的是，生成的芯片设计成功地在代理仿真模型中引发失效，同时保留了真实芯片设计分布的特征。该研究实证展示了 GAN 在生成对抗数据方面的潜力，可作为结构约束，为对抗攻击与数据驱动代理模型之间的相互作用提供了新的见解。

PINN。物理信息神经网络（Physics-Informed Neural Networks, PINNs）（Raissi 等，2019）近年来因其能够通过将物理定律融入学习过程来求解偏微分方程（PDEs）而受到广泛关注。PINNs 的发展提供了一个有前景的框架，用于平衡数据驱动学习与基于物理的建模，从而为现实世界应用构建更具泛化能力和可解释性的机器学习模型。然而，仍存在若干挑战，包括收敛问题、对不准确或不完整控制方程的敏感性，以及高计算成本——尤其是在求解复杂或刚性 PDEs 时。

3 方法论

3.1 问题形式化

3.3 深度物理先验

其中 γ 表示学习率。上述动力学生成的样本代表了后验的拉普拉斯近似。在这项工作中，我们在 q 空间上运行该动力学，因为Langevin动力学假设高斯先验，而 q 空间具有GRF先验。为了进行最大后验估计（MAP），我们在没有噪声的情况下运行上述动力学以恢复MAP。

3.4 逆向设计误差分析

我们通过逆向设计的正向响应与期望值之间的误差来衡量逆向设计的质量：

为了通过深度物理先验对逆向设计进行分析，我们提出以下引理：

引理1 给出了深度物理先验的一个基本实用设计指导：提升前向算子的泛化能力，有助于缩小逆向优化结果与真实逆解之间的差距。

4 实验

本节中，我们在两个稳态案例研究——二维达西流（2D Darcy Flow）和半导体光刻——中，将我们提出的深度物理先验方法与几种具有代表性的逆向设计解决方案进行了比较。所有实验均在单块配备48GB显存的NVIDIA RTX A6000 Ada显卡上进行。

4.1 逆向达西流

达西流方程是一个二阶椭圆型偏微分方程（PDE），其表达式如下：

在我们的实验中，我们使用两种变换方法生成了达西数据集的两个变体，从而能够评估我们的框架在处理二值和连续渗透率分布方面的能力。与 Li 等（2021）不同，他们在生成数据时固定了参数 τ 和 α，我们通过从均匀分布 U(1, 2.5) 中采样 α 引入了额外的变异性，使问题更具挑战性。对于连续和截断两种情况，我们分别生成 6000 个样本用于训练代理模型和先验模型，并额外生成 100 个样本用于逆向优化。

4.2 逆向光刻

人工智能的发展极大地受益于芯片设计与制造的进步，而这些进步从根本上依赖于光刻技术——一种将电路图案转移到硅晶圆上的关键工艺。

然而，由于光刻系统的分辨率极限与现代集成电路中不断缩小的特征尺寸之间的差距日益增大，在设计到晶圆的转移过程中可能会产生显著的图案失真（Yang & Ren, 2024；Banerjee 等, 2013；Zheng 等, 2023）。为了减轻这些失真，制造前的设计优化至关重要，以确保最终在晶圆上的图案能够准确反映预期的布局。

这一图案转移过程通常被称为正向光刻，其过程可通过以下光学成像模型近似表示：

其中， M 表示输入的掩模图案（待优化）， I 是在晶圆上产生的光强分布，而代表光刻系统参数，用于描述光传播和掩模相互作用的物理特性。晶圆上的光刻胶涂层对光强分布产生响应，从而形成最终的印刷图案。该光刻胶过程通常通过一个阈值操作进行建模：

结果。我们将结果与当前最先进的（SOTA）逆向光刻技术进行对比，并将数值结果报告于表2。方法“MultiILT”代表一种SOTA数值ILT求解器（Sun等，2023），它直接从公式(11)和公式(12)计算梯度。如前所述，由于在先进工艺节点上正向和反向传播的高计算成本（需要频繁对高维图像数据进行傅里叶变换），数值求解器面临显著挑战。方法“ILILT”采用数据驱动策略，将ILT表述为隐式层学习问题。我们评估了两种不同模型规模的“ILILT”以供比较。类似地，“GANO”是一种生成对抗神经算子，学习从芯片设计空间到优化掩模空间的功能映射。“DPP”表示我们提出的方法。需要注意的是，我们未包含其他基线方法（如MCMC、Rand或GInit，这些方法在逆向达西流中使用过），因为ILT是一个更复杂且敏感的任务，这些基线方法无法产生有意义的结果。总体而言，我们的方法在所有方法中实现了最少的EPE违规次数。尽管“GANO”具有最高的吞吐量，但它存在28倍更多的EPE违规，这可能会严重损害芯片功能性和制造良率。

图5通过与传统数值优化器（MultiILT）的对比，展示了DPP的优势。图中显示，传统求解器在逆向光刻优化后出现了组件缺失的问题，而DPP成功生成了高保真度的掩模，并获得了良好的晶圆图像。这一现象的原因在于：使用傅里叶神经算子作为航拍图像预测的代理模型，能够有效将逆向光刻优化过程约束在所学习的代理流形上，显著简化了搜索空间，从而相比传统的基于Hopkin衍射模型的逆向光刻方法，实现了更高效的收敛。

5 结论与讨论

深度物理先验为解决复杂科学与工程领域中的逆问题提供了一种有前景的范式，这些领域中的物理模型通常由偏微分方程或昂贵的黑箱仿真所支配。通过结合数据驱动的代理模型和生成式先验，该框架弥合了物理保真度与优化可行性之间的鸿沟。本方法对科学计算具有广泛意义，能够在流体力学、材料发现和微电子等领域实现可扩展且可解释的逆向设计。它推动了基于学习的设计方法的发展，这些方法能够尊重物理先验和领域约束。

我们方法的有效性取决于前向代理模型和生成模型的质量，这引入了优化精度与模型能力之间的权衡。训练不良的模型可能导致性能下降或产生不切实际的设计。未来的研究方向包括将该框架扩展至非结构化域（如图或网格），将不确定性量化引入设计流程，并将该方法应用于更多样化和真实的逆向设计任务。

原文链接： https://arxiv.org/pdf/2504.20278