博士学位答辩PPT分享 | 基于神经网络的偏微分方程优化求解方法研究

个人简介：

　　曹文博，西北工业大学航空学院2023级力学专业博士生，研究方向为科学机器学习与复杂流动求解。

论文题目：基于神经网络的偏微分方程优化求解方法研究

答辩时间：2026年5月30日

毕业去向：中国科学院工业人工智能研究所

论文摘要：

　　偏微分方程（partial differential equation, PDE）是刻画物理规律的基本数学工具，在物理系统的数值预测、优化设计以及动力学分析与控制等任务中均具有核心作用。传统基于离散化的PDE数值求解方法能够在给定几何与初边值条件下获得高保真解，长期以来构成工程仿真的核心技术路径。然而，随着工程需求由单一工况的高保真正问题求解扩展至多工况快速评估、与优化设计紧耦合的反复调用以及不完备观测下的反演与重建任务，传统数值求解范式在总体计算成本、跨问题的扩展性与不适定情形下的稳健性方面逐渐暴露出适用边界，亟需更高效且更具通用性的计算框架。

　　近年来，深度学习在高维函数表示与逼近方面展现出强大的优势，推动了科学机器学习在PDE相关问题中的发展与应用。物理信息神经网络（Physics-informed Neural Networks, PINNs）通过在训练过程中显式引入控制方程与初边值条件等物理约束，将PDE求解统一表述为受物理约束的函数逼近与优化问题，为正问题与反问题提供了统一建模路径，并在降低数据驱动建模中的数据依赖、支撑高维参数化问题求解与多工况评估等方面展现出潜力。然而，在复杂流动与多尺度问题中，PINNs仍面临若干突出瓶颈：训练过程中易出现误差平台、收敛缓慢与不稳定现象；在复杂几何与强梯度结构下，其表征能力仍显不足；在多工况场景中，其泛化能力与计算效率亦受到明显制约。围绕上述问题，本文以数值病态为主线，依次从病态机理与缓解、网格先验信息嵌入、参数化问题求解以及优化范式机理分析与改进等方面开展研究，形成面向工程流动问题的分析框架与改进方法。主要研究内容如下：

　　（1）针对PINNs中普遍存在的误差平台、收敛缓慢与训练不稳定等问题，本文围绕训练病态的机理分析与方法缓解开展研究，揭示了PDE系统谱性质对PINNs训练行为的主导作用，并据此提出时间步进导向的神经网络方法。具体而言，本文借鉴传统数值病态分析思路，聚焦PDE系统雅可比矩阵的谱性质对训练动力学的影响；通过构建受控系统与可控实验体系，在PDE系统中引入控制项以实现谱性质的定向调节，建立了从训练现象到谱性质表征再到病态机制解释的分析框架。数值实验结果表明，雅可比矩阵越病态，PINNs收敛越慢且精度越低，从而验证了训练病态与谱性质之间的直接关联。基于上述认识，本文提出时间步进导向的神经网络，通过外迭代---内迭代的层次化结构将病态问题分解为一系列更易收敛的良性子问题，显著提升了复杂流动算例中的收敛性与可靠性，并将PINNs的可解范围显著推进至5000雷诺数的顶盖驱动流动以及二维、三维绕流等更具挑战性的场景。

　　（2）针对复杂流动中局部强梯度与多尺度结构带来的表示困难，本文提出了基于坐标变换的改进框架，将传统数值方法中的网格与尺度先验转化为对神经网络表示空间的显式塑造，从而提升复杂流动问题中的表征能力与训练效果。具体而言，围绕"通过坐标变换为神经网络在计算空间构造更有利的表示空间"这一思路，本文一方面构建面向单块结构网格的显式坐标变换机制，使流动在计算空间中呈现更均衡的尺度分布；另一方面提出深度坐标变换网络，实现物理空间到高维计算空间的连续可微映射，以在复杂几何与非结构网格情形下对网格所携带的尺度信息进行隐式编码。结果表明，两类方法均能够显著改善误差水平与训练稳定性，并将PINNs的可解范围推进至高雷诺数湍流绕流场景：前者在结构网格与简单几何条件下表现良好，后者则进一步将该思路扩展至非结构网格与30P30N多段翼等复杂构型，表明所提出框架具备面向复杂工程外形推广的潜力。

　　（3）面向工程设计迭代中变工况、变几何的快速评估需求，本文研究基于PINNs的统一建模求解与快速推理框架，并形成了兼顾跨工况泛化与任务级适配的求解范式。具体而言，通过将空间坐标、流动参数与几何参数共同纳入统一的联合参数空间，可将多工况、多构型问题一致地表述为高维参数化建模任务，从而建立"一次训练、参数空间内快速推断"的端到端流程；同时，引入预训练---微调的任务适配机制以实现对特定任务或特定参数区间的快速调整。结果表明，该框架实现了无粘与层流翼型绕流的大范围参数化求解与泛化：训练完成后，预训练模型即可实现流动的近实时推理；微调则允许进一步提升特定任务的精度与可靠性，从而兼顾跨工况快速推理与任务级快速适配，为工程多工况快速评估预处理与优化设计提供了可复用的参数化求解框架。

　　（4）针对基于优化的PDE求解器在实践中普遍显著慢于经典迭代求解器的现象，本文从离散代数系统与损失函数形式之间的对应关系出发，揭示了优化范式效率受限的内在机制，并提出相应的改进损失构造方法。具体而言，理论分析表明，优化中常用的均方误差损失会隐式诱导正规方程结构，从而导致谱平方效应，从机制上导致优化范式普遍慢于迭代范式。基于这一认识，本文提出稳定化梯度残差损失，通过引入可调权重，在均方误差损失诱导的正规方程梯度与基于残差的更新方向之间进行插值，从而连续调节损失诱导的谱性质，并在病态条件下实现对收敛速度与训练稳定性的可控折中。上述研究从"损失诱导的谱性质"这一关键因素出发，在统一视角下刻画了优化范式与迭代范式之间的效率差异，并给出了可操作的缓解途径，为后续构建更高效的PINNs求解框架提供了理论依据与方法启发。

攻读博士期间发表学术论文情况：

$1$ Cao W, Zhang W. An analysis and solution of ill-conditioning in physics-informed neural networks $J$ . Journal of Computational Physics, 2025, 520: 113494.

JCP|西工大曹文博、张伟伟：物理信息神经网络的病态分析与病态解决方案

$2$ Cao W, Song J, Zhang W. A solver for subsonic flow around airfoils based on physics-informed neural networks and mesh transformation $J$ . Physics of Fluids, 2024, 36(2): 027134.

POF | 西北工业大学曹文博、张伟伟等：基于PINNs与网格变换的翼型绕流求解器

$3$ Cao W, Shan X, Tang S, et al. Solving parametric high-Reynolds-number wall-bounded turbulence around airfoils governed by Reynolds-averaged Navier--Stokes equations using time-stepping-oriented neural network $J$ . Physics of Fluids, 2025, 37(1): 015151.

POF | 西工大曹文博、张伟伟等：基于时间步进导向的神经网络求解高雷诺数壁湍流问题

$4$ Cao W, Song J, Zhang W. Solving high-dimensional parametric engineering problems for inviscid flow around airfoils based on physics-informed neural networks $J$ . Journal of Computational Physics, 2024, 516: 113285.

JCP | 西工大曹文博、张伟伟等：基于PINNs的翼型绕流高维参数化问题求解

$5$ Cao W, Tang S, Ma Q, et al. A surrogate model based on parametric neural network solvers for laminar flows around aerofoils $J$ . Engineering Applications of Computational Fluid Mechanics, 2025, 19(1): 2559110.

ENG APPL COMP FLUID | 西北工业大学曹文博、张伟伟等：基于参数化神经网络求解器的层流翼型绕流代理模型

$6$ Cao W, Zhang W. Overcoming the Loss Conditioning Bottleneck in Optimization-Based PDE Solvers: A Well-Conditioned Loss Function $J$ . Communications in Nonlinear Science and Numerical Simulation, 2026, 160: 109952.

CNSNS｜西工大曹文博、张伟伟：克服优化求解器中的损失条件数瓶颈：一种良性损失函数

博士论文答辩PPT

　　目前，传统数值方法在正问题求解中已经十分成熟，被广泛应用于工程问题。通过结合各类优化方法也可以解决大多数PDE约束优化问题。然而，随着工程需求由单工况求解扩展至多工况快速评估、与优化设计紧耦合的反复调用，以及不完备观测下的反演与重建任务，传统数值求解范式在总体计算成本、实现复杂度以及不适定问题求解方面逐渐暴露出不足，因此有必要发展更灵活更通用的计算框架。

　　近年来，深度学习的PDE相关研究中展现出了很强的潜力，逐渐形成了两条具有代表性的技术路线。数据驱动的算子学习范式以样本数据为监督直接学习解算子。优点是推理速度快，特别适合多查询场景，但通常依赖大量高质量标签数据。物理约束的优化求解范式通过将控制方程和定解条件写入损失函数，通过优化过程直接求解PDE。这类方法不依赖标签，但在复杂问题中往往会面临更突出的训练病态与优化困难。本文的工作主要沿第二条路线展开。

　　在这一类方法中，最具代表性的就是物理信息神经网络，也就是PINNs。它的基本思想，是用神经网络表示和逼近连续解函数。比如对于一般形式的PDE，在初始和边界条件位置随机采样配点，使它们的值逼近于给定的定解条件，同时在求解域内部采样的配点施加PDE约束，再通过最小化损失函数完成PDE求解。从求解范式上看，传统方法通常采用离散状态表示和迭代求解；而PINNs采用连续函数表示和优化求解。由于PINNs不依赖基于网格的离散，而是在高维空间的随机采样配点上施加约束并做函数逼近，因此特别适合高维PDE以及高维参数化问题。此外，它也可以方便地融合观测数据，因此能够自然扩展到反问题。

　　下面通过几个典型应用来说明PINNs的优势。首先，在高维PDE求解方面，这类方法能够处理高达200维的金融类问题，并将误差控制在1%以内；同时，它还可以通过一次训练得到不同初始条件下的时空解，体现出参数化求解的潜力。另一方面，在反问题中，PINNs能够实现从浓度场反演速度场和压力场，只需在损失函数中同时加入PDE约束和浓度场数据约束即可。而对于这类高度不适定问题，传统数值方法往往很难处理。

　　我们先看两个典型现象。顶盖驱动流动中，不同雷诺数下的损失收敛水平相近，但雷诺数越高，误差收敛越慢，甚至趋于停滞。Allen--Cahn方程中，即使损失下降约5个量级，误差仍长期维持在10%左右。二者共同体现了PINNs训练的这种病态现象：残差优化仍在推进，但物理解精度并未同步改善。

　　其实这类现象及其病态分析，在传统数值方法中并不陌生。对传统数值方法来说，求解PDE通常意味着求解其离散并线性化后得到的线性方程组。其中，系数矩阵A，也就是雅可比矩阵，对动力学系统至关重要：它的特征值分布决定稳定性，而条件数反映系统的病态程度。另一方面，在线性系统Ax=b中，线性代数有一个经典结论：误差上界由残差和条件数共同决定。也就是说，残差小并不保证误差小，还要看系统本身是否病态。于是，一个自然的问题就是，PINNs中是否也存在类似关系？PINNs中的训练病态，是否也与PDE系统的雅可比病态有关？这一点并不显然，因为PINNs中的残差并不是状态变量的显式函数，因此并不存在一个显式的状态空间线性化雅可比矩阵。为了解决这个问题，我们构造了受控系统，通过在原系统中加入强迫力项，在保持真实解不变的前提下，对谱性质进行定向调节，从而间接验证PINNs训练病态与雅可比病态之间的对应关系。

　　接下来，我们以对流方程为例，利用PINNs求解具有不同增益的受控系统，并通过有限差分离散计算相应条件数，作为PINNs中雅可比矩阵病态程度的粗略估计。结果表明，不同增益下损失收敛曲线差异有限，但由于系统条件数发生变化，误差收敛却呈现显著差异。由此可以验证，PINNs训练病态与PDE系统雅可比矩阵的病态性密切相关，雅可比矩阵越良性，PINNs收敛越快。

　　验证了这个结论后，本文从缓解雅克比矩阵病态的角度改善PINNs，事实上，受控系统已经提供了启发。但强迫力项中的参考解在实际中不可用，因此我们将它替换为当前步的网络输出即可。也就是说，我们每一步求解受控方程，求解完成后更新qn进行下一步。该方法命名为时间步进导向的神经网络是因为这个方程与CFD中的隐式时间推进等价。事实上，CFD中引入伪时间项求解稳态问题是一个常见策略，它可以统一方程类型，自然导出迭代格式。尤其在Newton类方法中，由于Newton法通常只具有局部收敛性，因此常通过引入伪时间项构造一个沿伪时间逐步逼近稳态解的收敛过程，以增强全局收敛性。TSONN中的目的不同，它是为了缓解病态，这一点将在后续算例中进一步验证。

　　接下来我们验证TSONN的效果，并考察三个问题：时间步长如何影响收敛；TSONN是否等价于简单松弛；以及在大时间步长下继续计算时，收敛历史会如何演化。这里选取的是Re=5000的NACA0012不可压流动，病态性较强、同时也更接近工程应用。可以看到，当时间步长取得较大时，TSONN的表现与原始PINNs已经非常接近，此时几乎退化回原始问题。随着时间步长减小，TSONN的稳定性明显提升，误差下降更快、更稳。同时，对比中间这张PINNs-R和TSONN的结果可以看到，简单加入松弛项几乎没有什么效果。也就是说，TSONN并不等价于简单松弛，它真正起作用的是缓解了病态。而后我们看在已经收敛后的解上采用不同时间步长续算，可以看到在大时间步长下，损失曲线可能依然保持收敛，但由于大的时间步长没有缓解病态，误差却会重新增大。

　　接下来，进一步考虑顶盖驱动流动。我们看到PINNs和TSONN在不同雷诺数下损失曲线接近甚至还略低；但PINNs的误差明显更大，尤其在高Re条件下更容易出现明显平台。这进一步表明，损失水平与系统病态程度共同决定了误差的大小。TSONN通过缓解PDE系统的病态，能够在相同甚至更大的损失下获得更可信的收敛过程与预测结果。

　　在上一节，我们主要在讨论和缓解损失函数导致的病态，这一节我们考虑复杂问题中网络的表征能力。在复杂流动中，往往存在大量局部剧烈变化区域 ，而神经网络是一个全局逼近器，其表达能力在整个求解域中是相对均匀分配的，这导致网络难以局部解析大梯度区域。而传统数值方法可以通过精心设计的网格分布，在局部大梯度区域进行网格加密，增加自由度从而提高这些区域的解析精度。受这一思想启发，本节的目的是把传统CFD中的网格与尺度先验嵌入神经网络求解器 。它的核心：建立物理空间到计算空间的映射 ；把高质量网格中蕴含的跨尺度 信息嵌入到神经网络求解过程中；而后在更有利于表示和训练的计算空间 中求解PDE。

　　前面的显式网格变换只适合简单的单块结构网格场景，这儿我们想进一步将其推广至非结构网格。我们直接使用神经网络学习物理空间到高维计算空间的连续坐标变换，在计算空间中放大网格加密区域，引入类似传统网格加密的效果。核心损失函数是使得网格映射到计算空间后所有的边长都相等。训练完成后坐标变换网络作为求解器的前置模块即可。

　　这一页展示DCTN在复杂三段翼上的验证结果。可以看到，使用坐标变换显著改善了表面压力分布的预测，也能够获得整体的流动结构。这表明，DCTN能够进一步推广到复杂几何，但精度仍然有待进一步提升。

　　前面两部分主要解决的是单工况PINNs求解中的训练病态和表示能力问题。接下来，我进一步考虑工程中的多查询需求，这对应参数化问题求解。这里的核心思路是：将原来"单工况单外形"的求解，扩展为对整个状态空间的统一建模。具体地，NNfoil-C将空间坐标、状态参数以及翼型外形参数统一纳入一个联合参数空间，使模型通过一次训练即可覆盖给定范围内的所有流动。在训练实现上，我们通过对状态参数和翼型参数进行联合采样，使模型在训练过程中持续看到不同工况、不同外形下的流动样本，从而获得覆盖大范围参数空间的统一泛化能力。右下角给出了训练规模。虽然离线训练成本相对较高，但一旦训练完成，模型就能够在联合参数空间内实现快速推断，因此特别适合工多工况快速评估的场景。

　　前面几部分工作主要围绕PINNs框架内的改进和应用展开。接下来，我进一步讨论一个更一般的问题。

　　也就是：为什么优化求解器通常会显著慢于经典迭代器？除了前面的PINNs之外，ODIL也是一种典型的优化求解器，它先对PDE进行网格离散，再以离散变量为未知量构造损失函数，通过优化过程最小化离散残差。这种方法计算路径更接近传统数值方法的求解过程，从而为比较优化求解与经典迭代求解提供了一个更直接、更可控的基准。虽然两者实现形式不同，但它们有一个共同本质：都把PDE求解转化成了损失函数优化问题。

　　因此，一个自然的问题就是：既然基于数值微分的PINNs、ODIL以及经典迭代法本质上都在处理同一类离散系统，为什么优化求解器通常会更慢？下面这一部分，我就从损失函数诱导的谱性质出发，对这个问题进行分析。

　　我们首先考虑对称正定的 线性方程组Aq=b的求解。从线性代数的基本结论我们知道对称正定问题等价于这样的一个二次优化问题，也就是QP损失 。其梯度就是原系统残差，因此它的梯度更新非常接近于迭代方法；对于MSE损失，也就是PINNs中采用的最小化残差平方和；其梯度变成了，本质上对应的是正规方程 ，后果就是它会把系统条件数平方，会导致优化求解器系统性的变慢。

　　前面对于对称正定系统，有QP损失可以用。但对于更一般的流动问题，离散系统通常是非对称 的。在这种情况下，的QP损失就不再直接适用，因为梯度在解处不为0，因此我们构造了梯度残差损失 ，使得它的梯度直接是残差。但是，单纯的梯度残差损失海森矩阵非对称，会导致震荡。因此，本文进一步构造了稳定化梯度残差损失，也就是SGR损失，本质上是MSE与GR梯度的一种加权折中。SGR的本质，是在正规方程梯度和残差驱动更新之间进行插值，从而构造一种更贴近迭代范式、同时又保持一定稳定性的优化目标。

　　下面通过非对称系统算例来验证这一点。这里首先选取的是AC方程，它是一个典型的非定常、非线性、非对称且具有强间断特征 的模型问题。左侧首先比较了原系统和正规方程的迭代收敛历史，可以看到，非对称系统中同样存在原系统更优、正规方程更慢的趋势。中间给出了ODIL中不同下SGR的收敛表现。可以看到，随着增大，收敛通常会明显加快；但如果过于接近1，稳定性又会开始变差。右侧表格给出了SGR等效Hessian矩阵条件数随变化的结果。可以看到，随着增大，条件数会显著下降，这与前面观察到的收敛加速是一致的。在非对称系统中，增大确实能够改善等效谱性质并加快收敛，但过大的也会带来稳定性问题，因此存在一个速度与稳定性的折中区间。

论文下载：

张伟伟教授ReaserchGate可下载

https://www.researchgate.net/profile/Weiwei_Zhang23

原文链接：

博士学位答辩PPT分享 | 基于神经网络的偏微分方程优化求解方法研究