强化学习的粒子群算法估计微分方程未知参数|微分方程|深度思考模型|算法|粒子群|贝叶斯|高维

Estimating unknown parameters in differential equations with a reinforcement learning based PSO method

基于强化学习的粒子群算法估计微分方程未知参数

https://arxiv.org/pdf/2411.08651

摘要
微分方程为复杂动态系统内的交互建模提供了基础且强大的框架，已广泛应用于众多科学领域。该领域的一个常见挑战是估计这些动态关系中的未知参数。然而，传统数值优化方法依赖于初始参数值的选择，容易陷入局部最优解。同时，深度学习和贝叶斯方法需要针对特定微分方程训练模型，导致通用性较差。本文通过引入粒子群优化算法中 “粒子” 的概念，将微分方程的参数估计问题重新表述为优化问题。在此框架下，解被表示为粒子群，每个粒子通过其位置和速度体现一个候选解。粒子通过相互作用迭代更新，促进向最优解收敛。基于强化学习的粒子群优化算法（RLLPSO），本文提出了一种新的方法 DERLPSO，用于估计微分方程的未知参数。我们在三个典型常微分方程上，将其性能与最先进的方法（包括 RLLPSO 算法、传统数值方法、深度学习方法和贝叶斯方法）进行了比较。实验结果表明，DERLPSO 在性能上始终优于其他方法，平均均方误差达到 1.13×10⁻⁵，与其他方法相比误差降低了约 4 个数量级。除常微分方程外，DERLPSO 在偏微分方程的未知参数估计中也显示出巨大潜力。本文提出的 DERLPSO 方法具有高精度、不依赖初始参数值，并且具备强通用性和稳定性。这项工作为微分方程的未知参数估计提供了新的见解。

关键词：微分方程、强化学习、粒子群优化、未知参数估计

1 引言
在人类活动的每一个瞬间，都有海量数据通过各种途径被收集。从这些数据中揭示隐藏的动态规律，是众多领域的基础性难题 [1]。常微分方程（ODEs）通过建模动态过程在时间或空间维度上的变化速率，被广泛用于描述科学、物理、经济、药代动力学、神经生理学和系统生物学等领域的复杂系统 [2]。在科学研究中，准确估计方程参数对于得出可靠有效的结论至关重要。未知或估计不准确的参数可能导致结果与现实偏差，阻碍我们对科学现象和规律的理解。因此，在分析系统前精准估计这些参数，对避免此类问题尤为重要 [3]。尽管常微分方程在各研究领域普遍存在，但目前缺乏通用的参数估计方法。这一局限性制约了我们对系统行为的理解与预测，凸显了常微分方程未知参数估计的迫切需求。

2 参数估计方法
在常微分方程参数估计领域，目前有两种常用方法：数值解法和非参数方法。数值方法通过最小二乘法将常微分方程的解与观测数据拟合，从而提供能准确反映实际行为的参数估计。然而，由于许多常微分方程缺乏解析解，这些方法的计算量往往很大。相比之下，非参数方法绕过显式的常微分方程求解过程，采用平滑技术进行估计。虽然这样可以减少计算开销，但会使优化过程变得复杂，对噪声更加敏感，并且容易收敛到局部最优解。
Edsberg 等人 [4] 采用数值方法进行参数估计，不过该方法存在一些缺陷：使用常微分方程求解器会增加计算复杂度 [3]，而且优化方法可能严重依赖初始参数值，容易陷入局部最优。
为了提高计算效率，Varah [5]、Ramsay 和 Silverman [6] 以及 Chen 和 Wu [7] 提出了一种简化的两阶段方法，以避免直接对常微分方程进行数值求解。在第一阶段，从观测数据中估计状态函数及其一阶导数，并将它们视为固定变量。在第二阶段，使用标准的最小二乘法估计参数。这种方法在处理简单常微分方程时表现良好。然而，在估计许多常微分方程的高阶导数时，其精度可能会下降。为了提高效率和估计精度，Ramsay 等人 [8] 提出了参数级联方法，这是一种广义平滑技术。该方法将常微分方程的未知解建模为 B 样条的线性组合，并对观测数据应用惩罚平滑。由常微分方程定义的惩罚项有助于防止非参数函数的过拟合。
近年来，贝叶斯方法在常微分方程参数估计中的应用取得了显著进展。Wakefield [9] 和 Lunn [10] 将贝叶斯方法应用于药代动力学模型。然而，这种贝叶斯方法的计算强度源于在马尔可夫链蒙特卡洛 (MCMC) 过程的每次迭代中都需要对常微分方程进行数值求解，这严重影响了效率。Huang 等人 [11] 提出了一种贝叶斯方法，该方法用概率表达式代替常微分方程约束，并将其与非参数数据拟合集成到一个联合似然框架中，使用 MCMC 采样方案。然而，这种方法需要预先了解常微分方程的结构，并且对于复杂的常微分方程可能无法获得满意的结果。
机器学习算法的发展显著提升了常微分方程的数值求解和参数估计能力。Brunton 等人 [12] 将稀疏回归和机器学习与非线性动力系统相结合，从含噪数据中提取控制方程，解决了识别控制方程的难题。然而，该方法依赖于所选的测量变量和函数基。如果选择不当，可能无法识别准确的稀疏模型。Raissi 等人 [13,14] 使用物理信息神经网络 (PINNs) 来估计各种物理系统中的参数。在这种方法中，参数作为网络训练过程的一部分被纳入，一旦网络训练完成，就可以获得优化后的参数值。此外，神经常微分方程 (Neural ODEs)[15] 将深度神经网络扩展到连续时间应用，在时间序列任务中具有高内存效率、强灵活性和有效性。然而，计算成本和参数调整方面仍然存在挑战，特别是对于复杂系统和大型数据集，需要进一步优化模型效率和训练时间。
Arloff 等人 [16] 提出了一种两步法，通过多项式近似避免了刚性常微分方程的数值挑战，并使用粒子群优化 (PSO) 算法缩小参数搜索空间。这种方法对于复杂的刚性常微分方程非常有效，能够以较低的计算负载识别可行解。然而，它只是缩小了参数空间，并且其解的质量依赖于多项式近似的准确性。PSO 是一种群智能算法，以其强大的全局搜索能力、简单的参数配置、快速收敛、易于实现、鲁棒性和在复杂优化问题中的广泛适用性而闻名。Wang 等人 [17] 开发了一种大规模优化算法 RLLPSO，该算法将 PSO 与强化学习 (RL) 相结合，以提高收敛速度和准确性。
我们将微分方程的参数估计问题重新表述为一个优化问题，并引入了一种新的方法 DERLPSO 来解决它。DERLSPO 通过对数初始化、重新初始化机制和自下而上的更新策略等多种新策略增强了 RLLPSO，以实现更高的收敛速度以及更准确和稳定的估计。DERLPSO 方法不依赖于初始参数值，并且具有很高的通用性和泛化能力。该方法已在三种类型的常微分方程上进行了测试：Lorenz 方程、FitzHugh-Nagumo 方程和 Lotka-Volterra 方程，以及三种类型的偏微分方程 (PDEs)：热方程、瞬态对流扩散方程和 Helmholtz 方程。我们将 DERLPSO 的性能与包括 RLLPSO 算法、传统数值方法、深度学习方法和贝叶斯方法在内的最先进方法进行了比较。
本文的其余部分组织如下。第 2 节详细介绍所提出的算法。第 3 节概述实验过程并讨论结果。第 4 节总结并为未来研究提供见解。

2 DERLPSO 理论与结构
微分方程未知参数估计旨在识别方程中未确定的常数或系数，目标是利用观测数据、初始条件等可用信息，确定这些未知参数的具体取值，使微分方程准确刻画系统的动态行为。例如，在式 (1) 所示的 Lotka-Volterra 方程中，x 和 y 称为状态变量，分别代表猎物与捕食者的种群数量；变量的导数 dx/dt 和 dy/dt 表示因相互作用产生的变量随时间的变化速率，其中 t 为时间；参数 α、β、δ 和 γ 是表征两物种相互作用动态的系数。本文解决的问题是：在已知 x、y 和时间 t 取值的情况下，确定 α、β、δ 和 γ 的具体数值。

2.1 DERLPSO Structure

粒子群优化算法（PSO）作为一种群智能算法，凭借其强大的全局搜索能力、简洁的参数设置、快速的收敛速度、易于实现的特性、鲁棒性以及广泛的适用性，成为解决复杂优化问题的有力工具。在本研究中，每个粒子代表微分方程的一组候选参数值，从而将参数估计问题转化为优化问题。通过引入强化学习来增强 PSO 算法的全局搜索能力，使其能够更快地收敛到最优解。RLLPSO [17] 是一种基于强化学习改进的大规模优化算法，具体通过构建分层的粒子群结构增强种群多样性，并采用强化学习策略动态控制种群层数，进而提升搜索效率。为进一步提高 RLLPSO 的收敛速度、稳定性和准确性，本文引入对数初始化、重新初始化机制和自下而上的更新策略，提出了一种求解微分方程未知参数的新方法 ——DERLPSO。对数初始化通过有效覆盖参数空间并提高小量级数值的采样概率，提升了算法的搜索效率；重新初始化机制通过重新定义粒子位置提供新的收敛机会，有助于更快发现全局最优；自下而上的更新策略确保低层粒子基于高层粒子的准确状态进行更新，避免误差积累，进一步增强了算法的收敛稳定性和准确性。

DERLPSO 算法流程如图 1 所示。首先初始化每个粒子的位置 X_i 和速度 V_i，对于式 (1) 所示的 Lotka-Volterra 方程，X=[α,β,δ,γ]，。采用两种随机初始化策略以确保充分覆盖整个搜索空间，从而提高解的多样性。随后进行粒子迭代更新，在每次迭代中，针对每个粒子对应的候选参数，使用 LSODA 或 FIPY 求解常微分方程或偏微分方程，计算模拟数据与拟合数据之间的均方误差（MSE），并据此对粒子进行排序和分层，层数由 Q 学习算法确定。分层操作实现了粒子的差异化更新，具体而言，每个粒子根据从之前层中随机选择的两个粒子进行更新，随后更新 Q 表。迭代过程直至满足预设终止条件为止。DERLPSO 的伪代码如算法 1 所示。

2.2 初始化策略

2.3 粒子分层策略

为了保持粒子群中候选解的多样性，该算法采用基于层级的粒子群结构。粒子群被划分为多个层级，较高级别的粒子表示更接近最优值的粒子。在这个算法中，根据候选解的损失值（按升序排列后），将 N 个粒子的种群划分为 L 个层级。损失值表示当前参数下模拟数据与拟合数据之间的均方误差（MSE）。如果粒子不能被均匀分配，则剩余的粒子将被分配到最后一个层级，如公式（4）所示。

例如，当 20 个粒子被分为三层时，第一层和第二层的粒子数量相等，各为 6 个，第三层有 8 个粒子，如图 3 所示。

在迭代过程中，第一层的粒子不会被更新，第二层的粒子会从第一层中随机选择两个粒子作为更新样本，而其他层的粒子在迭代时会从高于当前层的层级中随机选择两个粒子作为样本。在选择样本后，粒子将根据公式（5）进行更新，

由于低层粒子（层级编号较大）依赖高层粒子（层级编号较小）进行更新，若高层粒子更新后未降低损失值，但低层粒子仍依赖其更新，会导致低层粒子向错误方向更新。

因此，在粒子更新过程中采用自下而上的方法，即从最低层开始更新粒子。

2.4 层级选择策略

通过采用分层粒子群结构，粒子群能够保持良好的多样性，其中低层粒子拥有更多潜在的学习样本，而高层粒子则更专注于探索最优值。然而，随机选择两个粒子作为样本会对算法的收敛效率产生一定限制，因为粒子在更新时会以更大权重向损失值更低的粒子靠近。为提高收敛效率，引入竞争机制以增加选择损失值更低的粒子作为更新样本的概率，且触发该机制的概率随迭代次数增加而提高，如公式（6）所示，

2.5 强化学习引导的粒子分层

强化学习是一种机器学习方法，智能体通过与环境交互学习决策，目标是最大化累积奖励。与监督学习不同，强化学习不依赖显式标记数据，而是通过试错和接收反馈进行学习。在每一步中，智能体基于当前状态选择动作，环境会反馈奖励或惩罚，智能体通过此反馈调整策略，优化决策过程。Q 学习是一种广泛使用的强化学习算法。

Q 学习是基于值函数的强化学习算法，Q 表是 Q 学习中的查询表，以表格或矩阵形式存储每个状态 - 动作对对应的 Q 值。Q 值表示智能体在特定状态下执行某动作时，未来预期获得的累积奖励。Q 表的核心功能是帮助智能体根据当前状态选择最优动作：智能体在每个状态下按 Q 表选择动作，并根据获得的奖励和下一状态更新 Q 值。通过反复迭代，智能体逐渐学习到使累积奖励最大化的最优策略。Q 学习的关键在于使用 ϵ- 贪婪策略平衡探索与利用，并通过贝尔曼方程逐步优化 Q 值直至收敛，如算法 4 所示。

DERLPSO 在迭代过程中会自适应选择不同的层级数量，这一行为由强化学习的 Q 学习算法完成引导。Q 学习算法的核心是 Q 表，它是一个 n×n 矩阵，其中 n 表示候选层级数量。图 4 展示了 4 个候选层级数量下经过 50 次迭代后的 Q 表。在每次迭代中，基于 Q 表选择相应的层级数量。选择层级数量后，将每个粒子重新分配到各自的层级，然后更新每个粒子。l1 到 l4 的值代表候选层级数量，表示粒子群应划分为 2、4、6 或 8 等层级数量，当然也可以设置更多候选层级数量。每个状态和动作的初始 Q 值设为 0。在动作选择时，以一定概率随机选择一个层级数量，或选择 Q 值最高的候选层级数量，如公式（7）所示。

2.6 重新初始化策略

Tian 等人 [20] 提出，在迭代过程中对部分性能较差的粒子进行重新初始化可促进更好的收敛。本文方法中，若全局最优粒子的损失值在最大迭代次数的中点时仍未达到设定阈值，则所有粒子将基于对数策略重新初始化。由于粒子初始化是随机过程，存在陷入局部最优的可能，而重新初始化粒子可帮助算法跳出局部最优，探索更广阔的搜索空间，从而增加找到全局最优解的概率。

2.7 粒子评估

为评估每个粒子所代表的未知参数性能，采用 LSODA [21] 方法或 FiPy 库，在当前预测参数下模拟微分方程的解向量（如式 (1) 中的x和y值），并与真实解向量对比。使用均方误差（MSE）评估当前预测参数的质量（即当前粒子的位置信息），如式 (10) 所示：

3 实验与结果 3.1 微分方程

本文使用三种常见常微分方程（ODE）和三种常见偏微分方程（PDE）验证所提方法的有效性。这六种方程包括：Lotka-Volterra 方程、Lorenz 方程、FitzHugh-Nagumo 方程、热方程、瞬态对流扩散方程和 Helmholtz 方程。

3.1.1 Lotka-Volterra 方程

Lotka-Volterra 方程源自经典的生物系统模型 [22]，常用于描述生物系统中捕食者与猎物的动态交互关系，特别是两个物种种群数量的波动。该方程组由 Lotka 和 Volterra 分别于 1925 年和 1926 年独立提出，具体形式如式（1）所示。其中，y表示捕食者数量，x表示猎物数量，dtdy和dtdx分别表示捕食者和猎物种群的变化速率，t为时间，α、β、δ和γ是与两物种交互相关的参数（均为正实数）。本实验中，这四个参数为未知参数。

该常微分方程中两个变量的变化呈现周期性，与生物系统的自然发展规律一致：当猎物种群增加时，捕食者因食物充足而数量增长；但当捕食者数量超过阈值时，捕食速率超过猎物繁殖速率，导致猎物种群下降；猎物减少又会使捕食者因食物短缺而数量逐渐降低，捕食压力减轻后猎物数量得以恢复，随后捕食者数量随猎物增加而再次上升，如此循环往复。

3.1.2 Lorenz 方程

Lorenz 方程是描述大气流体对流运动的简化微分方程组 [23]，由美国气象学家 Edward Lorenz 提出。他对描述大气热对流的非线性常微分方程组进行傅里叶展开，通过截断展开式得到三维自治动力系统，即 Lorenz 方程，其中x、y、z分别代表垂直速度、上下层温度差的展开系数，用于模拟大气对流行为。

方程具体形式如式（11）所示，描述了三个物理量随时间的变化率：x与对流速率成正比，y与水平温度变化成正比，z与垂直温度变化成正比。常数σ、r和β为系统参数，分别与普朗特数、瑞利数和层的物理尺寸成比例。本实验中，这三个参数为未知参数。

3.1.3 FitzHugh-Nagumo 方程

FitzHugh-Nagumo 方程主要用于模拟神经元放电的动力学过程 [24]，其具体方程结构如式（12）所示。在本次实验中，θ₀和 θ₁为未知参数。

3.1.4 热方程

热方程是描述热传递过程的偏微分方程，又称傅里叶方程，以法国数学家和物理学家约瑟夫・傅里叶命名。该方程在物理学、工程学等众多领域具有广泛应用，例如材料中的温度分布、热传递和热传导等。其规律表明，在均匀介质中，热传递速率与温度梯度成正比，且方向与梯度方向相反。热传导方程的数学形式通常如式（13）所示。

3.1.5 瞬态对流扩散方程

瞬态对流扩散方程描述了一维空间中物理量在对流和扩散共同作用下的时间演化过程，在流体力学、热传导和环境科学等领域具有广泛应用。本文使用的方程如式（15）所示：

3.1.6 亥姆霍兹方程

亥姆霍兹方程以德国物理学家赫尔曼・冯・亥姆霍兹命名，用于描述波动现象，特别是当波的传播受到某种线性约束或限制时，波场（如电磁场或声场）的空间分布。这些约束可能源于边界条件（如有限区域内波的反射与干涉）或介质的非均匀性（如声波在层状介质中的传播）。亥姆霍兹方程如式（16）所示：

3.1.6 亥姆霍兹方程（续）

其中，ϕ表示待求解的物理量（如电磁场中的势函数或声波中的压力场），用于描述场的空间分布，是关于x和y的函数。常数k通常与问题的物理背景相关，本文中k的取值根据式（17）确定：

3.2 模型参数

实验使用的数据并非来自固定的微分方程，而是通过从特定分布中随机选择未知参数生成，以增加数据的随机性和通用性。考虑到不同常微分方程具有不同的数据规模，模拟数据的时间范围和初始点设置也有所不同。在实验中，为验证模型对不同长度时间序列数据的预测性能，分别对 5 个、8 个和 10 个时间点的数据进行了实验，具体参数如表 1 所示。

3.2 模型参数（续）

对于偏微分方程，为验证模型在不同时空范围内数据的预测有效性，分别针对不同空间和时间范围的数据开展实验。方程的未知参数采用截断正态分布设置，约束在区间 (0,1] 内，具体参数如表 2 所示。

在实验中，算法的种群大小 N 设置为 100。在公式（2）中，下界设为 - 10，上界设为 10。在公式（3）中，βmin 设为 1×10⁻¹⁰，βmax 设为 10，以确保粒子的初始参数值约束在 [-10, 10] 范围内。在公式（5）中，参数 ϕ 赋值为 0.4；公式（7）中，ϵ 设为 0.9；公式（9）中，参数 α 和 γ 分别定义为 0.4 和 0.8。候选层级列表为 Level = {4, 6, 8, 10}，重新初始化阈值设为 1×10⁻⁴。最大迭代次数根据具体方程调整，如表 3 所示。

为验证所提方法求解微分方程参数的有效性，本文将 RLLPSO、数值方法、深度学习方法和贝叶斯方法的结果与所提 DERLPSO 方法进行了对比。

3.3 DERLPSO 在常微分方程中的应用案例

在评估模型性能时，本文采用均方误差（MSE）和标准差（SD）两个重要指标。MSE 着重衡量预测值与真实值的平均平方差，对较大误差的惩罚更显著，能反映模型的整体预测偏差；SD 主要用于度量一组数据的离散程度或分布宽度，体现数据点偏离均值的程度。对于本文的常微分方程参数估计问题，SD 通过计算真实参数与预测参数的误差得到，SD 越小表明误差分布越集中，说明预测结果稳定一致。通过综合分析这两个指标，可全面深入地评估所构建模型的性能，更完整地了解其优缺点。

图 5 展示了不同常微分方程在对应实验场景下的模拟数据与拟合数据对比。表 4、表 5 和表 6 分别列出了 Lotka-Volterra 方程、Lorenz 方程和 FitzHugh-Nagumo 方程在 100 组预测参数与真实参数下的 MSE 均值，括号内数值为这 100 组数据的 MSE 标准差。此处报告的 MSE 为多个参数的平均均方误差。可见，DERLPSO 对三类常微分方程的未知参数均提供了合理预测，MSE 和 SD 均相对较小，表明该方法具有较高的准确性和稳定性。

3.4 与 RLLPSO 的对比

对于 RLLPSO，所有参数设置均与本文提出的方法一致。表 7 列出了两种方法在 100 组预测参数与真实参数下的 MSE 均值，括号内数值为这 100 组数据的 MSE 标准差。

根据表 7 可知，在不同数据长度下，对于 FitzHugh-Nagumo 方程和 Lotka-Volterra 方程，DERLPSO 的误差显著小于 RLLPSO。随着数据长度增加，误差逐渐减小，表明所提方法表现出更好的稳定性。对于 Lorenz 方程，DERLPSO 和 RLLPSO 的误差均非常小且接近，这说明该方法在保持与 RLLPSO 相当的高精度的同时，对其他方程也实现了更好的误差控制。

图 5、图 6 和图 7 展示了使用 DERLPSO 和 RLLPSO 成功估计三种常微分方程未知参数的损失曲线，损失值表示真实参数与预测参数之间的 MSE。由于其内部机制和优化策略，DERLPSO 在更少的迭代次数内快速降低误差，逼近全局最优解。

综上，与 RLLPSO 相比，DERLPSO 能够提供更准确、稳定的预测结果，具有更好的通用性，并且可以通过更少的迭代次数获得全局最优解。

3.5 与数值方法的对比

数值方法中的鲍威尔（Powell）方法由 Powell 于 1964 年提出，是一种基于共轭方向可加速收敛特性的搜索方法。该方法无需对目标函数求导，即使目标函数导数不连续也可应用，因此鲍威尔方法是一种高效的直接搜索方法。

在 DERLPSO 中采用了两种粒子初始化策略，因此在使用鲍威尔方法进行计算时，针对两种初始化策略分别进行了验证。结果如表 8 所示，其中列出了 100 组预测参数与真实参数的 MSE 均值。

由于数值方法对初始参数值高度敏感，从表 8 可以看出：当随机设置初始参数值时，采用对数初始化策略的 FitzHugh-Nagumo 方程能获得相对较小的误差；但对于其他两个常微分方程，无论使用何种初始化策略，所得误差均较大。相比之下，DERLPSO 在多个方程及不同数据长度下，均能比鲍威尔方法实现更准确且稳定的预测结果。

3.6 与深度学习方法的对比

神经常微分方程（Neural ODEs）[15] 能有效求解数据中的常微分方程问题，但该模型无法直接提取方程参数，因此本文对 Neural ODEs 进行改进，使其能够预测常微分方程中的未知参数。在深度学习方法中，全连接神经网络（FCNNs）在拟合多元高维函数方面具有强大能力；而循环神经网络（RNNs）因其门控单元和记忆存储功能，在时间序列数据建模中表现突出 [25]；编码器 - 解码器（Encoder-Decoder）或变分自编码器（VAEs）模型也具备从数据中提取潜在特征的能力。因此，本文同时采用 FCNNs、RNNs 和 VAEs 等经典深度学习方法求解常微分方程参数。值得注意的是，VAEs 的编码器和解码器均由 Neural ODEs 构成，网络结构见附录 A。

表 9 和表 10 列出了 DERLPSO 与四种深度学习方法在 100 组预测参数和真实参数下的 MSE 均值，括号内数值为这 100 组数据的 MSE 标准差。

深度学习方法依赖训练数据进行学习。实验首先使用从同一高斯分布中采样参数生成的训练和测试数据（相关参数见表 1），结果如表 9 所示。然而，在训练过程中，神经网络倾向于学习训练数据中固有的特定模式，这会影响对深度学习方法泛化能力的有效评估。为解决这一问题，实验还采用了另一种策略：训练数据由方差为 0.1 的高斯分布采样参数生成，而测试数据由方差为 0.5 的高斯分布采样参数生成，这种方法可更全面地评估模型性能，实验结果见表 10。

根据表 9 和表 10 可知，尽管在相同参数分布下训练和预测时误差较小，但 DERLPSO 在不同方程和数据长度的两种场景中，误差始终低于深度学习方法。此外，它具有两个显著优势：其一，无需预先进行模型训练，可轻松应用于其他方程；其二，不依赖大量数据，而深度学习方法通常需要海量训练数据。DERLPSO 不受训练数据限制，能以更高的灵活性处理各种未知数据分布，轻松适配其他常微分方程，展现出卓越的通用性。

3.7 与贝叶斯方法的对比

本文在 Lotka-Volterra 方程上对比了 DERLPSO 与基于 MCMC 采样的贝叶斯方法 [11] 的性能。结果如表 11 所示，其中列出了 DERLPSO 和贝叶斯方法在 100 组预测参数与真实参数下的 MSE 均值，括号内数值为这 100 组数据的 MSE 标准差。

当时间序列数据长度为 5 个点时，贝叶斯方法虽能实现最小预测误差，但仍高于本文提出的 DERLPSO 方法。此外，贝叶斯方法将常微分方程约束转化为概率表达式，并与非参数数据拟合过程结合形成联合似然框架，再通过 MCMC 采样从联合后验分布中抽样，这需要针对方程结构定义特定的概率表达式。相比之下，DERLPSO 在实现良好精度的同时，具备更强的通用性。

3.8 DERLPSO 在偏微分方程中的应用案例

表 12 列出了热方程、瞬态对流扩散方程和亥姆霍兹方程在 100 组预测参数与真实参数下的 MSE 均值，括号内数值为这 100 组数据的 MSE 标准差。可见，DERLPSO 对上述三类偏微分方程的未知参数均提供了合理预测，MSE 和 SD 值均较小，表明该方法具有良好的准确性和稳定性，能够有效求解偏微分方程的未知参数。图 9 展示了不同偏微分方程在对应实验场景下的模拟数据与拟合数据对比。

4 结论

本文对 RLLPSO 算法进行改进，提出了用于求解微分方程未知参数的 DERLPSO 方法。该方法与 RLLPSO 相比可获得更低的误差；同时能够避免传统数值方法对初始参数值敏感、易陷入局部最优的弊端。与求解微分方程参数的深度学习方法相比，其不仅精度更高，还无需大量数据预训练；相较于贝叶斯方法，可避免依赖特定方程结构的概率表达。综上，本文提出的 DERLPSO 方法在求解微分方程未知参数时表现优异，具备高精度、强通用性且不依赖初始参数值等优势。

众所周知，随着变量数量增加，微分方程解空间的复杂度也会提升。因此，未来工作的一个方向是改进算法，使其能够准确推断更复杂、更大规模微分方程的未知参数。

尽管本文方法在求解微分方程未知参数问题中展现出出色的全局搜索能力和鲁棒性，但与传统方法相比，计算速度未体现显著提升。这一问题限制了该方法在需要快速迭代的高维复杂模型中的实际应用潜力。未来研究可考虑融入并行计算、分布式优化技术，或探索混合优化算法，以突破当前计算速度瓶颈。

随机微分方程（SDEs）的拓展应用

随机微分方程已成为物理学、生物科学以及经济学和金融学中扩散过程的标准模型 [26]。SDE 中的随机性对参数估计的准确性构成挑战。本文提出的粒子在每次更新时可基于强化学习的反馈优化方向，从而更好地处理随机波动，提升估计的稳定性和精度。传统 SDE 参数估计方法可能需要大量计算才能获得理想结果，而本文方法支持粒子轨迹的实时优化，进而加速粒子群优化（PSO）的收敛过程。因此，该方法为 SDE 参数估计提供了一种新颖高效的解决方案，在处理非线性和高维 SDE 时具有潜在适用性。

https://arxiv.org/pdf/2411.08651