这篇论文提出了一种面向年龄结构化人口预测问题 的LSTM-PINN 混合方法 。针对现有模型难以同时处理长期时间依赖性 与政策驱动的人口异质性问题,作者构建了两种深度学习框架:
-
标准物理信息神经网络(PINN) :将受政策影响的生育率函数 嵌入传输-反应型偏微分方程 (PDE) 中,利用配置点法强制执行控制方程、边界条件和初始条件,拟合未来人口演化过程。
-
LSTM-PINN :在 PINN 基础上引入长短期记忆(LSTM)结构 ,增强模型对年龄-时间维度长期依赖性的建模能力,从而改善长期预测的稳定性和物理一致性。
作者基于三种不同生育政策情景(三孩政策、全面二孩政策、单独二孩政策)对 2024--2054 年中国人口演化进行预测,结果表明:
- 两种模型均能反映政策变动带来的人口结构变化趋势;
- LSTM-PINN 在处理长期依赖和复杂政策扰动场景下表现更优;
- 方法具有良好的收敛性 、物理约束一致性 与预测可解释性。
论文证明了将领域知识 (控制方程、人口生物机制)与深度学习结构 (PINN + LSTM)相结合的可行性,为人口预测建模方法提供了新思路,并开源了相关代码,为未来结合真实人口统计数据与复杂政策调控场景的应用扩展奠定基础。
作者 :
Ze Taoa,∗
作者单位 : a Nanophotonics and Biophotonics Key Laboratory of Jilin Province, School of Physics, Changchun University of Science and Technology, Changchun 130022, P.R. China
摘要
深度学习已成为科学建模,尤其是复杂动力系统建模中的一种强大工具;然而,在政策驱动下生育率变化条件下,准确刻画具有年龄结构的人口动态仍面临重大挑战 ,其原因在于缺乏有效融合领域知识与长期时间依赖关系的方法。
为解决这一问题,本文提出了两种物理信息深度学习框架 ------PINN 和 LSTM-PINN,将与政策相关的生育函数嵌入传输-反应偏微分方程中,用以模拟 2024 年至 2054 年的人口演化过程。
标准的 PINN 模型通过基于配置点的训练方式 强制执行控制方程与边界条件,能够准确学习潜在的人口动力学特性,并确保稳定的收敛性能。在此基础上,LSTM-PINN 框架进一步整合了序列记忆机制 ,能够有效捕捉年龄-时间维度中的长期依赖性,并在多个损失分量上实现稳健的训练表现。
在三种不同生育政策情景下的模拟结果------三孩政策 、全面二孩政策 和单独二孩政策 ------表明所提模型能够准确反映受政策影响的人口结构变化趋势 ,并突显出将领域知识融入数据驱动预测方法的有效性。
本研究为在政策干预背景下建模年龄结构化人口动态 提供了一种新颖且可扩展的框架,为实现数据驱动的人口预测 和应对未来人口挑战背景下的长期政策规划提供了有价值的参考。
关键词 :
长短期记忆网络;人口预测;物理信息神经网络;混合方法
1. 引言
在全球人口转型 与日益复杂的生育政策措施 背景下,年龄结构化人口动态演化建模 的重要性日益凸显 [1]。随着人口老龄化加剧 [2]和生育率波动 [3,4],精确的人口预测模型对于指导公共政策制定 、规划社会服务资源配置 以及预测长期经济影响 都至关重要。这就要求构建能够有效融合生物人口过程 与时间、年龄相关外部因素(如政策调整)的方法框架。
目前,已有多种方法被提出用于建模年龄结构化人口,包括经典分区模型 [5,6,7]、偏微分方程(PDE)模型 [8],以及现代数据驱动方法 [9,10,11]。传统数学建模方法[12]在理想化条件下为人口动态研究提供了宝贵见解,而近年来机器学习技术的发展[13]则使数据自适应建模策略变得更加灵活。然而,现有模型在统一、可解释且计算稳定的框架下融入复杂时间依赖性 与政策驱动异质性 方面仍存在困难,限制了其在政策变动下长期预测场景中的应用能力。
近年来,物理信息神经网络(PINNs) [14,15]的兴起,为将先验领域知识直接嵌入机器学习模型开辟了新途径。这类方法通过在学习过程中嵌入控制方程,保持了模型的物理可解释性与一致性,同时兼具神经网络的灵活性。进一步结合循环结构 ,如长短期记忆(LSTM)网络 [16]的 PINN 扩展形式,则能够增强对长期时间依赖性 的刻画能力,这在人口学系统中尤为关键,因为历史趋势会对未来结果产生强烈影响。
为了推动数据驱动学习 与机理型人口建模 的融合,本文实施了标准 PINN 与LSTM增强型 PINN 框架 ,用于模拟不同生育政策下的年龄结构化人口演化过程 。通过将与年龄、时间相关的生育函数 嵌入传输-反应偏微分方程 中,这些模型融合了领域知识与神经网络逼近器,能够同时准确刻画生物动力学过程 与政策驱动的人口变化 。结果表明,所提方法在各类政策情景下均表现出稳定收敛性 、长期时间依赖学习能力 以及可解释预测结果 ,凸显了物理信息深度学习在推动人口预测建模发展中的潜力,并为未来结合实测数据 与复杂政策变量的扩展工作奠定了方法基础。
2. 问题设定
考虑定义在区域
D = { ( a , t ) ∈ [ 0 , a 0 ] × [ t min , t max ] | 0 ≤ a ≤ a 0 , t min ≤ t ≤ t max } D = \left\{ (a, t) \in [0, a_0] \times [t_\text{min}, t_\text{max}] \ \middle| \ 0 \leq a \leq a_0, \ t_\text{min} \leq t \leq t_\text{max} \right\} D={(a,t)∈[0,a0]×[tmin,tmax] ∣ 0≤a≤a0, tmin≤t≤tmax}
上的问题,其中 a a a 表示年龄 , t t t 表示时间 。该区域内的人口密度函数 P ( a , t ) P(a, t) P(a,t) 满足McKendrick--von Foerster 年龄结构化人口动力学方程:
∂ P ( a , t ) ∂ t + α ∂ P ( a , t ) ∂ a = − μ ( a ) P ( a , t ) (1a) \frac{\partial P(a, t)}{\partial t} + \alpha \frac{\partial P(a, t)}{\partial a} = -\mu(a) P(a, t) \tag{1a} ∂t∂P(a,t)+α∂a∂P(a,t)=−μ(a)P(a,t)(1a)
边界条件:
P ( 0 , t ) = ∫ 0 a 0 b ( a , t ) P ( a , t ) d a (1b) P(0, t) = \int_0^{a_0} b(a, t) P(a, t) \, da \tag{1b} P(0,t)=∫0a0b(a,t)P(a,t)da(1b)
初始条件:
P ( a , 0 ) = P data ( a , 0 ) (1c) P(a, 0) = P_\text{data}(a, 0) \tag{1c} P(a,0)=Pdata(a,0)(1c)
其中, P ( a , t ) P(a, t) P(a,t) 表示年龄为 a a a、时间为 t t t 时的人口密度, μ ( a ) \mu(a) μ(a) 表示年龄特异性死亡率 , b ( a , t ) b(a, t) b(a,t) 表示年龄特异性生育率 (ASFR) 。 α = t _ max − t _ min a _ 0 \alpha = \frac{t\\text{max}-t\\text{min}}{a\_0} α=a_0t_max−t_min 为无量纲的时间-年龄缩放因子 ,代表衰老速率。
3. 基于 PINN 与 LSTM-PINN 的人口预测方法
3.1 PINN 模型下的人口动力学建模
针对人口预测问题,损失函数可表示为:
L ( θ ) = λ 1 L 1 ( θ ) + λ 2 L 2 ( θ ) + λ 3 L 3 ( θ ) (2) \mathcal{L}(\theta) = \lambda_1 \mathcal{L}_1(\theta) + \lambda_2 \mathcal{L}_2(\theta) + \lambda_3 \mathcal{L}_3(\theta) \tag{2} L(θ)=λ1L1(θ)+λ2L2(θ)+λ3L3(θ)(2)
其中各项分别为:
PDE 残差损失:
L 1 ( θ ) = 1 N ∑ i = 1 N ( ∂ P ∂ t ( a i , t i ) + α ∂ P ∂ a ( a i , t i ) + μ ( a i ) P ( a i , t i ) ) 2 (3a) \mathcal{L}1(\theta) = \frac{1}{N} \sum{i=1}^{N} \left( \frac{\partial P}{\partial t}(a_i, t_i) + \alpha \frac{\partial P}{\partial a}(a_i, t_i) + \mu(a_i) P(a_i, t_i) \right)^2 \tag{3a} L1(θ)=N1i=1∑N(∂t∂P(ai,ti)+α∂a∂P(ai,ti)+μ(ai)P(ai,ti))2(3a)
边界条件损失:
L 2 ( θ ) = 1 M ∑ j = 1 M ( P ( a j , t min ) − P 0 ( a j ) P ( a j , t min ) + ε 0 ) 2 (3b) \mathcal{L}2(\theta) = \frac{1}{M} \sum{j=1}^{M} \left( \frac{P(a_j, t_\text{min}) - P_0(a_j)}{P(a_j, t_\text{min}) + \varepsilon_0} \right)^2 \tag{3b} L2(θ)=M1j=1∑M(P(aj,tmin)+ε0P(aj,tmin)−P0(aj))2(3b)
初始条件损失:
L 3 ( θ ) = 1 K ∑ k = 1 K ( P ( 0 , t k ) − ∫ 0 a 0 b ( a , t k ) P ( a , t k ) d a ) 2 (3c) \mathcal{L}3(\theta) = \frac{1}{K} \sum{k=1}^{K} \left( P(0, t_k) - \int_0^{a_0} b(a, t_k) P(a, t_k) \, da \right)^2 \tag{3c} L3(θ)=K1k=1∑K(P(0,tk)−∫0a0b(a,tk)P(a,tk)da)2(3c)
在上式定义的复合损失函数中,各项作用如下:
- L _ 1 ( θ ) \mathcal{L}\_1(\theta) L_1(θ) 对应于PDE 残差损失,在内部采样点处强制执行人口平衡方程;
- L _ 2 ( θ ) \mathcal{L}\_2(\theta) L_2(θ) 为边界条件损失 ,由 a = 0 a=0 a=0 处的积分约束导出;
- L _ 3 ( θ ) \mathcal{L}\_3(\theta) L_3(θ) 为初始条件损失,确保初始时刻人口密度与已知数据保持一致。
其中, a _ i , a _ j , t _ k a\_i, a\_j, t\_k a_i,a_j,t_k 分别表示用于计算残差和约束的年龄 与时间采样点 , ε _ 0 \varepsilon\_0 ε_0 为防止参考人口密度趋近于零导致分母不稳定的正数, λ _ 1 , λ _ 2 , λ _ 3 \lambda\_1, \lambda\_2, \lambda\_3 λ_1,λ_2,λ_3 为超参数,控制各损失项在总损失中的相对权重,通常通过经验方法选取以实现各分量间的优化平衡。
我们使用物理信息神经网络(PINN) 预测人口在时空上的分布。如图1所示,首先利用全连接神经网络对人口密度函数 P ( a , t ) P(a, t) P(a,t) 进行初步拟合,输入年龄-时间采样点 ,通过自动微分 计算偏微分方程残差,将初始年龄分布和边界生育条件作为惩罚项加入损失函数。总损失由 PDE 残差与约束项之和组成,通过随机梯度下降 法迭代优化网络参数 θ = [ W , b ] \theta = [W, b] θ=[W,b]。训练终止条件可设为损失值降至阈值 ε \varepsilon ε 以下,或迭代次数达到最大值 m m m。
3.2 基于 LSTM-PINN 的增强型人口预测方法
如图 2 所示,本文采用 LSTM-PINN 混合神经网络 预测人口的时空分布,将长短期记忆网络(LSTM) 与物理信息神经网络(PINN) 的优势相结合。LSTM 网络由多层结构组成,能够捕捉时间依赖性 ,使模型可以学习随时间演化的复杂动态过程。该 LSTM 架构同时处理空间(年龄) 与时间 输入特征,刻画不同年龄组与时间点的人口密度函数 P ( a , t ) P(a, t) P(a,t) 的演化过程。
LSTM 的输出随后传递至一个全连接层,最终给出每个空间与时间点的人口密度预测值。LSTM 网络的核心优势在于其通过门控结构捕捉时间相关过程 的能力,网络中的输入门、遗忘门与输出门可以有选择性地保留重要信息,丢弃无关数据,从而有效捕捉人口动态等动态系统中的长期依赖性。
例如,遗忘门允许网络舍弃过时的信息 ,而输入门则促进对新的相关信息的融入。这种结构增强了模型在不同时间尺度与空间配置下的泛化能力。
在 LSTM-PINN 框架 中,物理约束通过复合损失函数引入,包含了人口平衡控制方程残差项 、边界条件项 和初始条件项。这些物理约束保证模型遵循系统的物理定律,即在人口预测过程中既满足平衡方程,又充分发挥 LSTM 的时间建模优势。
总损失通过随机梯度下降(SGD) 法最小化,利用自动微分 获得的梯度对网络参数 KaTeX parse error: Undefined control sequence: \[ at position 10: \theta = \̲[̲W, b] 进行反向传播迭代更新。与传统 PINN 框架相似,训练终止条件为损失函数降至预设阈值 ε \varepsilon ε 以下,或迭代次数达到最大值 m m m。该方法可在保证物理约束满足的前提下,实现高效的人口时空分布预测。
4. 数值算例与求解
4.1 模型设定与问题定义
设定 a _ 0 = 100 a\0 = 100 a_0=100, t _ min = 2024 t\\text{min}=2024 t_min=2024, t _ max = 2054 t\_\text{max}=2054 t_max=2054。此外,定义年龄相关死亡率 μ ( a ) \mu(a) μ(a) 为:
μ ( a ) = { μ 0 + B a , 0 ≤ a < 60 ( μ 0 + B × 60 ) exp [ 0.06 ( a − 60 ) ] , a ≥ 60 \mu(a) = \begin{cases} \mu_0 + B a, & 0 \leq a < 60 \\ (\mu_0 + B \times 60) \, \exp\left[0.06(a-60)\right], & a \geq 60 \end{cases} μ(a)={μ0+Ba,(μ0+B×60)exp[0.06(a−60)],0≤a<60a≥60
其中, μ _ 0 = 0.006805083 \mu\_0 = 0.006805083 μ_0=0.006805083, B = 0.0003 B = 0.0003 B=0.0003。
而随年龄-时间变化的生育率函数 b ( a , t ) b(a, t) b(a,t) 根据实施政策不同,定义如下:
- 三孩政策下:
b ( a , t ) = min { base_asfr ( a ) × [ 1 + 0.2 × 1 t ≥ 2014 + 0.2 × 1 t ≥ 2016 + 0.2 × 1 t ≥ 2021 ] , 0.25 } b(a, t) = \min \left\{ \text{base\asfr}(a) \times \left[ 1 + 0.2 \times \mathbb{1}{t \geq 2014} + 0.2 \times \mathbb{1}{t \geq 2016} + 0.2 \times \mathbb{1}{t \geq 2021} \right], \ 0.25 \right\} b(a,t)=min{base_asfr(a)×[1+0.2×1t≥2014+0.2×1t≥2016+0.2×1t≥2021], 0.25}
- 单独二孩政策下:
b ( a , t ) = min { base_asfr ( a ) × [ 1 + 0.2 × 1 t ≥ 2024 ] , 0.20 } b(a, t) = \min \left\{ \text{base\asfr}(a) \times \left[ 1 + 0.2 \times \mathbb{1}{t \geq 2024} \right], \ 0.20 \right\} b(a,t)=min{base_asfr(a)×[1+0.2×1t≥2024], 0.20}
- 全面二孩政策下:
b ( a , t ) = min { base_asfr ( a ) × [ 1 + 0.2 × 1 t ≥ 2024 ] , 0.25 } b(a, t) = \min \left\{ \text{base\asfr}(a) \times \left[ 1 + 0.2 \times \mathbb{1}{t \geq 2024} \right], \ 0.25 \right\} b(a,t)=min{base_asfr(a)×[1+0.2×1t≥2024], 0.25}
其中,指标函数 1 _ t ≥ t _ 1 \mathbb{1}\_{t \geq t\_1} 1_t≥t_1 定义为:
1 t ≥ t 1 = { 1 , t ≥ t 1 0 , t < t 1 \mathbb{1}_{t \geq t_1} = \begin{cases} 1, & t \geq t_1 \\ 0, & t < t_1 \end{cases} 1t≥t1={1,0,t≥t1t<t1
而基础生育率 base_asfr ( a ) \text{base\_asfr}(a) base_asfr(a) 定义为:
base_asfr ( a ) = { 0.0022 × ( a − 20 ) ( 35 − a ) , 20 ≤ a ≤ 35 0 , otherwise \text{base\_asfr}(a) = \begin{cases} 0.0022 \times (a-20)(35-a), & 20 \leq a \leq 35 \\ 0, & \text{otherwise} \end{cases} base_asfr(a)={0.0022×(a−20)(35−a),0,20≤a≤35otherwise
4.2 PINN 数值求解方法
本文所采用的物理信息神经网络(PINN) 由一个全连接前馈神经网络 构成,包含四个隐藏层 。输入为两个经过归一化处理的变量------年龄 和时间 ,隐藏层分别包含 128 128 128、 128 128 128 和 64 64 64 个神经元,每个神经元激活函数为双曲正切函数(Tanh) 。输出层生成一个代表归一化人口密度的单一值。
模型采用 Adam 优化器 ,固定学习率为 5 × 1 0 − 4 5 \times 10^{-4} 5×10−4,训练轮数设定为 10 , 000 10,000 10,000 次。在每一轮训练中:
- 使用 N = 5000 N = 5000 N=5000 个配置点用于强制执行偏微分方程 (PDE);
- 使用 M = 2000 M = 2000 M=2000 个点作为 t = 2024 t=2024 t=2024 初始条件采样;
- 使用 K = 2000 K = 2000 K=2000 个点作为 a = 0 a=0 a=0 边界条件采样。
上述采样策略在每个 epoch 中均重复实施,以增强模型的泛化能力 和数值稳定性。
损失函数的收敛过程如图 3所示,总损失 、PDE 残差损失 、初始条件损失 和边界条件损失 均在训练过程中表现出稳定收敛趋势,验证了模型对底层人口动态机制的有效捕捉能力 。
相应的人口预测结果 如图 4所示,展示了在三种不同生育政策情景下------"三孩政策 "、"二孩政策 "和"全面二孩政策 "------预测期 (2024--2054) 内的年龄-时间人口分布变化趋势 ,表现出随政策变动的人口结构差异性。
4.3 LSTM-PINN 数值求解方法
在本文提出的 LSTM-PINN 框架 中,神经网络采用堆叠式 LSTM 架构 ,包含 4 层,每层包含 64 个单元。LSTM 每个时间步的输入为一个二维向量 ,包含归一化后的年龄 与时间特征。
每个 LSTM 单元内部采用经典门控结构 ,包含输入门 、遗忘门 和输出门 三类门控单元。这些门控机制控制跨时间步的信息流动,使模型能够捕捉非线性动态过程 以及年龄-时间域内的长期依赖性 。4 层 × 64 单元 × 3 门控,总计 4 × 64 × 3 = 768 4 \times 64 \times 3 = 768 4×64×3=768 个门控单元。
每个门控单元均通过可学习的仿射变换 ,接 sigmoid 激活函数实现,对 LSTM 单元状态进行更新与记忆保留。层间采用 dropout,设定丢弃率为 0.1,以降低过拟合风险。
LSTM 层的最终输出传递至全连接线性层 ,预测对应的归一化人口密度值。
训练过程中,模型使用 Adam 优化器 ,固定学习率为 5 × 1 0 − 4 5 \times 10^{-4} 5×10−4,每个场景训练 10 , 000 10,000 10,000 次迭代。在每个 epoch 中,采样策略如下:
- N = 5000 N = 5000 N=5000 个内部点用于强制执行 PDE 约束;
- M = 2000 M = 2000 M=2000 个初始条件采样点拟合起始年份人口年龄分布;
- K = 2000 K = 2000 K=2000 个边界条件点处理生育率相关的积分边界条件。
损失函数由三部分组成:
- PDE 残差损失,约束传输-反应方程;
- 初始条件损失,确保起始时间人口分布一致;
- 边界条件损失,强制生育率积分边界约束。
三部分在总损失函数中权重相等。
如图 5 所示,损失函数表现出稳定的收敛趋势,PDE、初始条件 (IC) 与边界条件 (BC) 三部分损失均逐渐降低,推动总损失值稳定收敛。
如图 6 所示,预测期内 (2024--2054) 三种政策情景下的人口密度分布预测结果 ,清晰展现了随政策调整带来的年龄-时间人口动态变化轨迹差异 及其对人口增长趋势的影响。
5. 结论
在本研究中,我们开发并评估了两种基于深度学习的人口预测框架------PINN 和 LSTM-PINN ,用于模拟 2024--2054 年不同生育政策情景下年龄结构化人口密度演化过程 。通过将受政策驱动的、随年龄和时间变化的生育率函数 嵌入控制的传输-反应偏微分方程 (PDE) 中,所提出模型能够同时刻画生物学过程 与政策变动所引起的人口结构变化。
其中,标准 PINN 模型通过基于配置点的方法,强制执行控制方程及相关条件,展现出稳定的收敛性 ,并能够准确学习潜在的人口动力学规律 。而 LSTM-PINN 框架进一步结合了序列记忆机制 ,有效捕捉了年龄-时间域内的长期时间依赖性,且在各损失分量中均表现出稳定的训练行为。
在三孩政策 、全面二孩政策 和单独二孩政策 三种不同政策情景下的模拟结果表明,不同政策情境对应的人口分布预测存在显著差异,反映出人口动力学对生育政策的高度敏感性。两种模型均为将领域知识融入数据驱动的人口预测任务提供了有效方法。
尽管本研究基于 PINN 与 LSTM-PINN 框架在人口预测建模中的应用尚属初步探索,但其结果证明了该方法的可行性和潜力。未来工作将围绕以下几方面展开:
- 在不同学习率设定下,系统化评估两种方法的收敛稳定性 与性能变化趋势;
- 探索可能的算法改进方案 ,并引入实际人口统计数据 ,提升模型预测的现实性 与政策相关性,尤其针对中国当前面临的人口问题;
- 开展更严格的数学建模推导与假设修正,以提升预测结果的精度 与可解释性。
本研究相关的全部源代码已开源发布于 GitHub(详见下方"数据可用性"部分),我们诚挚欢迎学术界同行参与交流、完善与扩展本工作。
数据可用性声明
本研究过程中生成和/或分析的数据集与代码,已公开发布于 GitHub:
👉 https://github.com/Uderwood-TZ/LSTM-PINN-and-PINN-for-population-forecasting.git