论文分享 | 优化离散损失求解反问题：无需神经网络的快速精确学习

Solving inverse problems in physics by optimizing a discrete loss: Fast and accurate learning without neural networks

Petr Karnakov , Sergey Litvinov and Petros Koumoutsakos

引用格式：Karnakov P, Litvinov S, Koumoutsakos P. Solving inverse problems in physics by optimizing a discrete loss: Fast and accurate learning without neural networks $J$ . PNAS nexus, 2024, 3(1): pgae005.

编者按

　　求解偏微分方程相关的反问题已成为近年来的一个研究热点。这项研究提出了以方程解为优化变量的离散损失优化方法，并通过大量数值实验验证了该方法在参数识别、流场重构和外形推断三类反问题上的有效性。为传统数值格式和机器学习的直接结合提供了一定参考。

1.研究背景

　　偏微分方程（partial differential equations, PDEs）的求解在科学、工程和医学等许多领域中发挥着重要作用。在过去的几十年里，该方向的研究主要关注正问题，即根据定解条件获得计算区域内方程的解。然而，反问题也普遍存在于工程领域，例如数据同化、系统识别等，这给传统范式带来了巨大挑战。近年来，机器学习成为了一种处理反问题的有效途径，但仍然存在一些局限。

　　最近，物理信息神经网络（physics informed neural networks, PINNs）成为PDEs正反问题求解领域的研究热点，该方法通过神经网络实现对方程解的近似，在反问题求解方面具有独特优势。然而，PINNs仍存在一些局限性。首先，该方法以神经网络参数为优化变量，其对应的Hessian矩阵通常是稠密的，给优化带来挑战；其次，PINNs缺乏收敛性、稳定性保证，并且未考虑传统数值方法中迎风格式等成熟的改进策略；另外，PINNs使用自动微分计算偏导数的成本随着偏导数阶次的增加呈指数上升，这导致其在高阶微分方程上的应用受到限制。

　　这项研究提出了一种不依赖神经网络的离散损失优化（optimizing a discrete loss, ODIL）方法，用于求解涉及PDEs的正反问题。与PINNs不同，ODIL直接将网格点上的解变量作为优化变量，而非通过神经网络构建时空坐标到解变量的映射，这种思想与Cao等 $1$ 提出的在线降维优化方法类似。ODIL 的损失函数由 PDE损失、初始条件和边界条件损失以及潜在的数据损失组成，并采用有限体积或有限差分格式对 PDE 进行离散。相比 PINNs，该方法具有以下优势：

　　1）通过传统数值格式离散 PDE，避免了自动微分带来的高计算成本，并能继承数值格式中的成熟改进策略。

　　2）所构造的优化问题Hessian 矩阵是稀疏的，优化更容易。

2.方法

　　考虑如下PDE，

　　其中u表示PDE的解，θ表示参数向量。ODIL将u作为优化变量（在涉及反问题需推断θ时，θ也同时作为优化变量），并求解无约束最小化问题，

　　其中

　　式（3）中NC表示网格量，文章皆使用均匀网格。

　　文章通过两种方法求解此最小化问题，第一种是基于梯度下降的优化算法，即以式（3）为目标函数执行梯度下降，关于u和θ的偏导数通过自动微分计算。第二种是高斯-牛顿法，假设（us, θs）为第s个迭代步的解，对F(i)进行线性化，

　　定义

　　式（4）可写为

　　可据此构造迭代格式：

　　Us+1被不断更新以逼近PDEs的解。该方法不涉及优化，属于数值迭代方法。

　　另外，文章还参考多重网格方法来加速ODIL，假设均匀网格每个方向的网格量为N1=N，引入一系列逐渐变粗的网格层次，它们中每个方向的网格数为Ni=N/2i-1，i=1,...,L。据此定义多重网格分解算子，

　　其中ui表示尺度为Ni的网格上的解，Ti表示将解从粗网格Ni+1插值到细网格Ni上的插值算子。最终解为

3.结果

3.1 一维波动方程

　　文章首先通过一维波动方程的正问题验证ODIL相对PINNs的增强效果，如图一所示。可见，随着网格数目的增加，PINNs和ODIL的误差都逐渐降低，但PINNs所需的训练步数和执行时间普遍高于基于梯度下降的ODIL。而基于牛顿法的ODIL属于数值迭代方法，其在正问题上的优势是公认的。

3.2 二维Poisson方程

　　文章还通过二维Poisson方程的正问题来对比ODIL和PINNs，解析解被设计为

　　其中k分别取2和4。图2展示了PINNs和基于梯度下降的ODIL的计算结果。可见，当k=2时，两种方法的结果都与参考解比较一致，ODIL精度更高。当k=4时，ODIL的结果与参考解较为一致，而PINNs求解失败，这可能是由于神经网络难以拟合函数的高频成分。

3.3 热传导方程------从温度场中推断导热函数

　　文章的下一个算例涉及从温度场中推断导热函数，控制方程为热传导方程，

　　其中u表示温度，k(u)表示导热函数。进行推断的温度数据为Ndata=200组观测数据。图4对比了PINNs，基于梯度下降的ODIL和基于牛顿法的ODIL的求解结果，可见相比PINNs，基于梯度下降的ODIL所需的训练步更少。

3.4 顶盖驱动方腔流

　　顶盖驱动方腔流是二维定常Navier-Stokes方程的一个典型测试算例，文章通过它进一步验证ODIL。

正问题

　　图6展示了PINNs，基于梯度下降的ODIL和基于牛顿法的ODIL分别求解雷诺数100和1000的方腔流的结果。由图D,G可观察到，基于梯度下降的ODIL的收敛速度比PINNs快一个数量级以上。

反问题------流场重构

　　文章还基于100组速度数据进行了流场重构，雷诺数为3200。图7对比了基于梯度下降的ODIL重构的流场与参考解，可见两者较为一致，验证了ODIL在流场重构方面的有效性。

3.5 通过速度场推断外形

　　通过将外形参数化至PDE中，文章还探索了基于梯度下降的ODIL通过速度观测数据推断外形的能力。以定常Navier-Stokes方程为例，可以引入外形参数将其变为，

　　其中χ用于表征外形，其在物体内为1，物体外为0，据此可确定物体外形。问题转化为基于式（42）推断χ的值。

二维问题

　　文章首先推断了圆柱、椭圆和非凸三个二维外形，雷诺数为60，物体的特征长度D=0.4，采用的速度观测数据数目为100。图9-11展示了这三种外形的推断结果。可见圆柱、椭圆的推断结果与真实外形较为一致，尽管非凸外形的推断存在明显偏差，但ODIL在外形推断方面的潜力是值得肯定的。

三维问题

　　文章进一步推断了三维球体和半球外形，雷诺数和特征长度与二维问题相同。采用的速度观测数据数目为684。图12-13展示了这两种外形的推断结果，可见尽管存在明显偏差，但ODIL推断出的外形与真实外形整体上具有一定一致性。

总结

　　文章提出了一种通过优化离散损失来求解反问题的ODIL方法。该方法利用传统数值格式离散PDE，以网格点上的解为优化变量执行梯度下降。相比PINNs，ODIL能够继承数值格式中的成熟方法，并实现了Hessian矩阵的稀疏化，在精度和效率方面具有优势。同时，多重网格方法也被集成进ODIL中以进一步提升算法表现。通过数值实验，文章展示了ODIL在参数识别、流场重构和外形推断这三种反问题上的能力。

$1$ Cao W, Liu Y, Shan X, et al. A novel convergence enhancement method based on online dimension reduction optimization $J$ . Physics of Fluids, 2023, 35(3).

原文链接：

论文分享 | 优化离散损失求解反问题：无需神经网络的快速精确学习

注：本文由投稿者对原文进行解读、翻译、总结，仅作分享交流。