【论文阅读26】贝叶斯-滑坡预测-不确定性

📖 这篇论文主要说了什么？

📌 背景：

滑坡预测里，预测失稳时间（Slope Failure Time, SFT） 很关键，但它受两方面不确定性影响：

观测不确定性（监测数据本身的误差、噪声）
模型不确定性（模型参数估计误差、建模简化假设）

传统方法：

INVM（逆速度法） 是常用的确定性方法，但它没有明确考虑这些不确定性。
最大似然法（Maximum Likelihood Method） 虽然能做参数估计，但它低估了模型和观测的不确定性。

📌 这篇论文干了什么？

提出了一种新的基于贝叶斯机器学习（BML, Bayesian Machine Learning） 的方法来预测滑坡失稳时间，能同时考虑模型不确定性和观测不确定性，并量化预测结果的不确定性。

📌 怎么做的？

收集了55个滑坡案例数据，做成数据库，包含监测的累积位移时间序列。
分别用：
- 传统 INVM 方法
- 最大似然法
- BML 方法
  对每个滑坡预测 SFT。
对比三种方法的预测表现：
- 看预测失稳时间跟实际失稳时间的差异。
- 看预测区间（95%置信区间）是否覆盖了实际失稳时间。
- 检验预测结果是否符合正态分布假设（Jarque-Bera 检验）

📌 得出的结论？

传统 INVM 方法虽然有时能预测得准，但没法给出预测不确定性范围，遇到异常值偏差大，误差可达94天。
最大似然法：
- 能给出均值和标准差，但低估了模型和观测的不确定性。
- 正态性假设不成立（Jarque-Bera 检验多数案例拒绝正态性假设）
BML 方法：
- 同时考虑模型和观测不确定性。
- 预测均值和标准差更合理。
- 预测的95%置信区间能覆盖所有55个滑坡的实际失稳时间。
- 不依赖正态性假设，更稳健。

📌 最后总结：

👉 预测滑坡失稳时间，必须同时考虑模型不确定性 和观测不确定性

👉 传统方法和最大似然法都存在低估不确定性的问题

👉 本文提出的 BML 方法预测更可靠、更稳健，置信区间更合理

Jie Zhang¹², Zipeng Wang¹², Jinzheng Hu¹², Shihao Xiao¹², Wenyu Shang³*

¹ Key Laboratory of Geotechnical and Underground Engineering of the Ministry of Education, Tongji University, Shanghai, 200092, China

² Department of Geotechnical Engineering, Tongji University, Shanghai, 200092, China

³ Natural Science College, Michigan State University, MI, 48825, USA

¹ 同济大学岩土及地下工程教育部重点实验室，上海 200092，中国

² 同济大学岩土工程系，上海 200092，中国

³ 美国密歇根州立大学自然科学学院，密歇根州，48825，美国

摘要

基于变形监测数据的数据驱动现象学模型已被广泛应用于边坡破坏时间（SFT）的预测。然而，观测误差与模型不确定性可能导致基于现象学模型预测的SFT与实际破坏时间存在偏差。目前，关于如何评估这些不确定性对SFT预测影响的研究仍然十分有限。

本文构建了一个综合性的边坡破坏数据库，提出了一种基于贝叶斯机器学习（BML）的方法，用于学习SFT预测中的模型与观测不确定性，从而获得SFT的概率分布。文中通过算例详细说明了该方法的实施过程。验证性研究表明，所提出的BML方法在SFT预测精度上优于传统的反速率法（INVM）与最大似然法。该方法为边坡破坏时间预测提供了一种有效的技术手段。

关键词：

边坡破坏时间（Slope Failure Time, SFT）

贝叶斯机器学习（Bayesian Machine Learning, BML）

反速率法（Inverse Velocity Method, INVM）

好的，我来帮你把这段英文正文部分规范地翻译成中文，保留公式并用 KaTeX 格式书写变量和字母，适合论文或者技术文档使用：

1. 引言

由于难以精确获得揭示外部环境、地质条件及人类活动等复杂因素对边坡破坏影响的物理模型（Crosta and Agliardi, 2002；Intrieri and Gigli, 2016；Kothari and Momayez, 2018；Kardani et al., 2021），基于变形监测数据的数据驱动型现象学模型已被广泛用于边坡破坏时间（Slope Failure Time, SFT）预测（Petley et al., 2005；Mufundirwa et al., 2010；Federico et al., 2012, 2015；Xue et al., 2014）。现象学模型中可能存在两类不确定性（Zhang et al., 2020a），即由测量误差和外部扰动等因素导致的观测不确定性（Mazzanti et al., 2015；Intrieri and Gigli, 2016；Carlà et al., 2017），以及由模型假设所引起的模型不确定性（Carlà et al., 2018；Kothari and Momayez, 2018）。上述不确定性的存在可能导致数据驱动模型预测的 S F T SFT SFT 与实际破坏时间存在偏差（如 Venter et al., 2013；Federico et al., 2015）。

近年来，学者们开始关注不确定性对 S F T SFT SFT 预测结果的影响。Manconi 和 Giordan（2015, 2016）通过自助法（bootstrapping）重抽样策略，评估了考虑观测不确定性影响下预测 S F T SFT SFT 的置信区间（Confidence Interval, CI）及预测可靠性。Intrieri 和 Gigli（2016）则通过比较多个竞争性现象学模型的预测结果，评估了模型不确定性对 S F T SFT SFT 分析的影响。Zhang et al.（2020a）提出了最大似然法（Maximum Likelihood Method），在若干简化假设条件下，同时考虑观测与模型不确定性对 S F T SFT SFT 的影响。然而，当这些假设不成立时，如何同时显式考虑模型与观测不确定性，仍是一个具有挑战性的课题。

贝叶斯机器学习（Bayesian Machine Learning, BML）是一种基于贝叶斯定理的数据驱动方法，具有灵活表示多源不确定性和强大应对复杂真实数据能力的优势，已在多个领域获得广泛应用。相关方法的有效性已在众多研究中得到验证（Shirzadi et al., 2017；Ching and Phoon, 2019；Contreras and Brown, 2019；Wang, 2020；Ma et al., 2021）。

本文旨在提出一种基于 B M L BML BML 的 S F T SFT SFT 概率预测方法，旨在克服 Zhang et al.（2020a）最大似然法的局限性。所提方法不仅能够检验最大似然法简化假设对预测结果的影响，还可在最大似然法不适用的情形下，作为预测 S F T SFT SFT 的有效工具。

本文结构安排如下：首先，介绍 S F T SFT SFT 预测中涉及的不确定性，并讨论最大似然法中的关键假设。然后，提出基于贝叶斯方法识别模型与观测不确定性，从而确定 S F T SFT SFT 的概率分布。随后，通过算例详细说明所提方法。最后，将本文方法与传统的确定性方法和最大似然法进行对比。本文方法为同时结合单个边坡特性及其他边坡信息的 S F T SFT SFT 预测提供了通用的技术手段。

2. S F T SFT SFT 预测中的不确定性

目前已有多种现象学模型被用于 S F T SFT SFT 预测，如 Saito (1969) 基于时间-应变或位移关系图的方法，Fukuzono (1985) 提出的基于时间-速度倒数（ R R R）关系图的反速率法（Inverse Velocity Method, INVM），Mufundirwa et al. (2010) 的基于速度与速度乘以时间值关系图的斜率梯度法，以及 Xu et al. (2011) 基于变换后的位移-时间关系图的切线法。Federico et al. (2015) 对上述方法进行了系统综述与对比分析。

在这些方法中， I N V M INVM INVM 由于易于应用且结果解释直观，应用最为广泛。此外，由于其可表示为线性形式，可在该方法基础上开发高效的机器学习算法。本文选用 I N V M INVM INVM 作为基础方法，所提方法同样适用于其他可线性化表达的模型，如 Saito 方法及斜率梯度法。

I N V M INVM INVM 方法表明，在边坡破坏临界阶段，速度倒数-时间关系图趋于线性（Rose and Hungr, 2007）。假设在边坡破坏前阶段，速度倒数与时间呈线性关系，则二者关系可表示为（Fukuzono, 1985；Voight, 1988；Rose and Hungr, 2007；Carlà et al., 2017）：

R = A ( t c − t ) R = A (t_c - t) R=A(tc−t)

其中， R R R 和 t t t 分别表示速度倒数与时间， A A A 和 t c t_c tc 为待定参数。破坏前阶段通常定义为加速起点（Onset of Acceleration, OOA）之后阶段（Dick et al., 2014；Carlà et al., 2017）。如图 1 所示， t c t_c tc 为 R − t R-t R−t 线性关系与时间轴的交点，表示 I N V M INVM INVM 预测的 S F T SFT SFT，假设破坏发生时滑坡速度为无穷大。

为构建高效的模型不确定性表征算法，可将上式整理为未知参数线性关系形式：

t = t c − B R t = t_c - B R t=tc−BR

其中， B B B 为 R − t R-t R−t 曲线斜率相关系数。如图 1 所示， R − t R-t R−t 曲线附近离散观测点反映了观测不确定性。观测误差可建模为均值为 0 0 0、标准差为 s o s_o so 的正态随机变量 ε o \varepsilon_o εo：

t = t c − B R + ε o t = t_c - B R + \varepsilon_o t=tc−BR+εo

由于简化建模假设， R − t R-t R−t 曲线截距可能偏离实际 S F T SFT SFT，如图 1 所示。预测 S F T SFT SFT 与实际值之差称为模型不确定性。记实际 S F T SFT SFT 为 t a t_a ta，其与预测 S F T SFT SFT 的关系为（Zhang et al., 2020a）：

t a = t c + ε m t_a = t_c + \varepsilon_m ta=tc+εm

其中， ε m \varepsilon_m εm 为均值为 μ m \mu_m μm、标准差为 s m s_m sm 的正态随机变量。

为实现实际 S F T SFT SFT 预测，应同时考虑模型与观测不确定性。Zhang et al. (2020a) 提出的最大似然法用于对上述不确定性进行参数估计。下文将简要回顾该方法，并讨论其中涉及的关键假设。

3. 最大似然法回顾

在 Zhang 等 (2020a) 中，基于公式 (1) 建立的观测不确定性模型可以表示为：

R = A ( t c − t ) + ε o M L R = A(t_c - t) + \varepsilon_{oML} R=A(tc−t)+εoML

其中， ε o M L \varepsilon_{oML} εoML 是均值为 0，标准差为 s o M L s_{oML} soML 的正态随机变量。为便于说明，令 q = { A , t c , s o M L } q = \{A, t_c, s_{oML}\} q={A,tc,soML}。假设获得了 n n n 个数据点用于校准公式 (5)，并且当 q q q 已知时观测值相互独立，则 q q q 的似然函数表达式为：

l ( q ) = ∏ i = 1 n f ( r i − A ( t c − t i ) s o M L ) l(q) = \prod_{i=1}^n f\left(\frac{r_i - A(t_c - t_i)}{s_{oML}}\right) l(q)=i=1∏nf(soMLri−A(tc−ti))

其中， f ( ⋅ ) f(\cdot) f(⋅) 表示标准正态概率密度函数（PDF）， r i r_i ri 表示在时间 t i t_i ti 时的速度倒数观测值，即 R R R 的观测值。

设 q ∗ q^* q∗ 表示 q q q 的最大似然估计值。根据最大似然原理，当观测数量足够大时， q q q 可近似服从均值为 m q = q ∗ m_q = q^* mq=q∗、协方差矩阵为 C q C_q Cq 的多元正态分布，其中 C q C_q Cq 与在 q ∗ q^* q∗ 点处似然函数对数的 Hessian 矩阵相关。注意， t c t_c tc 是 q q q 中的一个分量。一旦得到 q q q 的 PDF，也就可以求得 t c t_c tc 的边际 PDF。

在公式 (4) 中， ε m \varepsilon_m εm 的均值和标准差，记作 m m m_m mm 和 s m s_m sm，表征模型不确定性。令 g = { m m , s m } g = \{m_m, s_m\} g={mm,sm}。假设收集了 r r r 个滑坡样本用于校准模型不确定性，设第 j j j 个滑坡的 t c t_c tc 均值和标准差分别为 m c j m_{cj} mcj 和 s c j s_{cj} scj。注意，这里的 m c j m_{cj} mcj 和 s c j s_{cj} scj 值通过前述最大似然方法计算获得。令 d j d_j dj 表示第 j j j 个滑坡的观测失稳时间（SFT）， d = { d 1 , d 2 , ⋯ , d r } d = \{d_1, d_2, \cdots, d_r\} d={d1,d2,⋯,dr}。假定所有滑坡的 SFT 彼此独立，则 m m m_m mm 和 s m s_m sm 的似然函数可表示为：

l ( g ∣ d ) = ∏ j = 1 r f ( d j − m c j − m m s c j 2 + s m 2 ) l(g|d) = \prod_{j=1}^r f\left(\frac{d_j - m_{cj} - m_m}{\sqrt{s_{cj}^2 + s_m^2}}\right) l(g∣d)=j=1∏rf scj2+sm2 dj−mcj−mm

根据最大似然原理，当样本量足够大时，通过最大化公式 (7) 可求得 m m m_m mm 和 s m s_m sm 的最优值。

在模型和观测不确定性均确定后，可以计算失稳时间 t a t_a ta 的均值和标准差。假设 t a t_a ta 服从正态分布，其累积分布函数 (CDF) 表达式为 (Zhang et al., 2020a)：

P ( t a < t ) = F ( t − m c − m m s c 2 + s m 2 ) P(t_a < t) = F\left(\frac{t - m_c - m_m}{\sqrt{s_c^2 + s_m^2}}\right) P(ta<t)=F(sc2+sm2 t−mc−mm)

其中， F ( ⋅ ) F(\cdot) F(⋅) 表示标准正态累积分布函数。

如上所述，Zhang 等 (2020a) 所提出的最大似然方法基于以下假设：

模型和观测不确定性均通过最大似然法估计，且假定观测数据数量远大于模型参数数量。
在估计观测不确定性时，假定 t c t_c tc 的分布服从正态分布。
在估计模型不确定性时，仅求解模型不确定性参数的最优值，未考虑 m m m_m mm 和 s m s_m sm 的不确定性。
假设失稳时间 (SFT) 的分布服从正态分布。

因此，尽管 Zhang 等 (2020a) 提出的最大似然方法使用方便，但有必要开发能够避免上述假设的方法。若能实现，不仅可以检验最大似然法简化假设对 SFT 预测结果的影响，还能在最大似然法不适用的情况下提供预测工具。下文将介绍一种基于贝叶斯机器学习 (BML) 的方法，正如将要展示的，这种方法对假设条件要求更少，且预测结果与观测 SFT 更为吻合。

4. 模型不确定性机器学习方法

4.1 贝叶斯网络

由于模型不确定性是指模型预测的 SFT（失稳时间）与实测 SFT 之间的差异，因此可以通过对大量滑坡预测 SFT 与实测 SFT 之间的系统类比分析进行研究，这涉及大量不确定变量。由于贝叶斯网络能够描述大量不确定变量之间复杂的依赖关系（例如 Aguilera 等, 2011；Bartlett 和 Cussens, 2017），本研究提出的机器学习方法将基于贝叶斯网络开展。类似于最大似然法，假设收集了 r r r 个滑坡样本用于学习模型不确定性。图 2 给出了贝叶斯网络的结构。其中， B j B_j Bj、 t c j tc_j tcj 和 s o 2 s_o^2 so2 分别表示分析第 j j j 个滑坡（ j = 1 , 2 , ... , r j=1,2,\dots,r j=1,2,...,r）时，基于式（3）求解 INVM 时的未知参数。对于第 j j j 个滑坡，假设存在 n j n_j nj 个用于 INVM 校准的数据点，记第 j j j 个滑坡第 i i i 个观测时刻为 t j i t_{ji} tji（ i = 1 , 2 , ... , n j i=1,2,\dots,n_j i=1,2,...,nj），其对应的观测速率为 R j i R_{ji} Rji。根据式（3）和对 ε o \varepsilon_o εo 的正态性假设， t j i t_{ji} tji 在给定 B j B_j Bj、 t c j tc_j tcj 和 s o 2 s_o^2 so2 下的条件概率密度函数（PDF）可表示为：

f ( t j i ∣ B j , t c j , s o j 2 ) = f ( t j i ∣ t c j + 1 B j R j i , s o j ) (9) f\left( t_{ji} | B_j, tc_j, s_{oj}^2 \right) = f\left( t_{ji} | tc_j + \frac{1}{B_j R_{ji}}, s_{oj} \right) \tag{9} f(tji∣Bj,tcj,soj2)=f(tji∣tcj+BjRji1,soj)(9)

设第 j j j 个滑坡的实际 SFT 为 t a j ta_j taj，根据式（4），在 m m m_m mm、 s m 2 s_m^2 sm2 和 t c j tc_j tcj 确定时， t a j ta_j taj 的条件概率密度函数为：

f ( t a j ∣ m m , s m 2 , t c j ) = f ( t a j ∣ t c j + m m , s m ) (10) f\left( ta_j | m_m, s_m^2, tc_j \right) = f\left( ta_j | tc_j + m_m, s_m \right) \tag{10} f(taj∣mm,sm2,tcj)=f(taj∣tcj+mm,sm)(10)

在贝叶斯网络中，箭头尾部的节点称为父节点，箭头指向的节点称为子节点。无父节点的节点称为根节点。图 2 中， m m m_m mm、 s m 2 s_m^2 sm2、 B j B_j Bj、 t c j tc_j tcj 和 s o j 2 s_{oj}^2 soj2 都是根节点。为执行贝叶斯学习，需要为根节点设定先验分布。

4.2 贝叶斯网络的先验 PDF

原则上，根节点随机变量的先验 PDF 应根据已有知识确定，从而得到所有变量的先验 PDF。当缺乏先验知识时，可采用无信息先验（Del Castillo, 2007）。另一方面，采用共轭先验可显著简化计算量（Del Castillo, 2007）。因此，本研究为贝叶斯网络中的根节点选取共轭先验分布，便于基于 Gibbs 采样算法高效学习 SFT 数据库。基于贝叶斯网络以及式（9）和式（10）的正态性假设， m m m_m mm、 B j B_j Bj 和 t c j tc_j tcj 的共轭先验 PDF 均为正态分布（例如 Gelman 等, 2013）：

f ( m m ) = f ( m m ∣ m m , s m ) (11) f(m_m) = f(m_m | m_m, s_m) \tag{11} f(mm)=f(mm∣mm,sm)(11)

f ( B j ) = f ( B j ∣ m B j , s B j ) (12) f(B_j) = f(B_j | m_{Bj}, s_{Bj}) \tag{12} f(Bj)=f(Bj∣mBj,sBj)(12)

f ( t c j ) = f ( t c j ∣ m t c j , s t c j ) (13) f(tc_j) = f(tc_j | m_{tcj}, s_{tcj}) \tag{13} f(tcj)=f(tcj∣mtcj,stcj)(13)

其中， m m m_m mm 和 s m s_m sm 分别为 m m m_m mm 的均值和标准差； m B j m_{Bj} mBj 和 s B j s_{Bj} sBj 为 B j B_j Bj 的均值和标准差； m t c j m_{tcj} mtcj 和 s t c j s_{tcj} stcj 为 t c j tc_j tcj 的均值和标准差。当 m m m_m mm、 m B j m_{Bj} mBj 和 m t c j m_{tcj} mtcj 取有限值，而 s m s_m sm、 s B j s_{Bj} sBj 和 s t c j s_{tcj} stcj 取极大值（即 s m → + ∞ s_m \to +\infty sm→+∞， s B j → + ∞ s_{Bj} \to +\infty sBj→+∞， s t c j → + ∞ s_{tcj} \to +\infty stcj→+∞）时，上述先验分布可视作无信息先验。

基于贝叶斯网络和正态性假设， s m 2 s_m^2 sm2 和 s o j 2 s_{oj}^2 soj2 的共轭先验 PDF 均为尺度逆卡方分布（例如 Del Castillo, 2007；Gelman 等, 2013）：

f ( s m 2 ) = Scale-Inv- χ 2 ( n m , s m 2 ) (14) f(s_m^2) = \text{Scale-Inv-}\chi^2(n_m, s_m^2) \tag{14} f(sm2)=Scale-Inv-χ2(nm,sm2)(14)

f ( s o j 2 ) = Scale-Inv- χ 2 ( n o j , s o j 2 ) (15) f(s_{oj}^2) = \text{Scale-Inv-}\chi^2(n_{oj}, s_{oj}^2) \tag{15} f(soj2)=Scale-Inv-χ2(noj,soj2)(15)

其中， n m n_m nm 和 n o j n_{oj} noj 为自由度， s m 2 s_m^2 sm2 和 s o j 2 s_{oj}^2 soj2 为尺度参数。若自由度趋近于 0 且尺度参数为有限值（即 n m → 0 + n_m \to 0^+ nm→0+， n o j → 0 + n_{oj} \to 0^+ noj→0+， 0 < s m 2 < + ∞ 0 < s_m^2 < +\infty 0<sm2<+∞， 0 < s o j 2 < + ∞ 0 < s_{oj}^2 < +\infty 0<soj2<+∞），该尺度逆卡方分布可视作无信息先验。基于上述两类先验 PDF，可求得贝叶斯网络中所有随机变量条件分布的解析表达式，详见附录。

4.3 机器学习算法

记 t j = { t j 1 , t j 2 , ... , t j n j } t_j = \{ t_{j1}, t_{j2}, \dots, t_{j n_j} \} tj={tj1,tj2,...,tjnj}（ j = 1 , 2 , ... , r j=1,2,\dots,r j=1,2,...,r）为第 j j j 个滑坡的观测时刻集合。为便于表述，定义：

T = { t 1 , t 2 , ... , t r } T = \{ t_1, t_2, \dots, t_r \} T={t1,t2,...,tr}
t a = { t a 1 , t a 2 , ... , t a r } ta = \{ ta_1, ta_2, \dots, ta_r \} ta={ta1,ta2,...,tar}
B = { B 1 , B 2 , ... , B r } B = \{ B_1, B_2, \dots, B_r \} B={B1,B2,...,Br}
t c = { t c 1 , t c 2 , ... , t c r } tc = \{ tc_1, tc_2, \dots, tc_r \} tc={tc1,tc2,...,tcr}
S o = { s o 1 2 , s o 2 2 , ... , s o r 2 } So = \{ s_{o1}^2, s_{o2}^2, \dots, s_{or}^2 \} So={so12,so22,...,sor2}

这样，所有随机变量可统一表示为 { m m , s m 2 , B , t c , S o , T , t a } \{ m_m, s_m^2, B, tc, So, T, ta \} {mm,sm2,B,tc,So,T,ta}。根据链式法则和贝叶斯网络的 Markov 性（例如 Pearl, 1988；Neapolitan, 2004；Darwiche, 2009；Koller 和 Friedman, 2009），联合概率密度函数可写为：

f ( m m , s m 2 , B , t c , S o , T , t a ) = f ( m m ) f ( s m 2 ) ∏ j = 1 r [ f ( B j ) f ( t c j ) f ( s o j 2 ) f ( t a j ∣ m m , s m 2 , t c j ) ∏ i = 1 n j f ( t j i ∣ B j , t c j , s o j 2 ) ] (16) f(m_m, s_m^2, B, tc, So, T, ta) = f(m_m) f(s_m^2) \prod_{j=1}^{r} \left[ f(B_j) f(tc_j) f(s_{oj}^2) f(ta_j|m_m,s_m^2,tc_j) \prod_{i=1}^{n_j} f(t_{ji} | B_j, tc_j, s_{oj}^2) \right] \tag{16} f(mm,sm2,B,tc,So,T,ta)=f(mm)f(sm2)j=1∏r[f(Bj)f(tcj)f(soj2)f(taj∣mm,sm2,tcj)i=1∏njf(tji∣Bj,tcj,soj2)](16)

4.3 机器学习算法（续）

基于贝叶斯定理，所有变量的联合后验 PDF 为：

f ( m m , s m 2 , B , t c , S o ∣ T , t a ) ∝ f ( m m , s m 2 , B , t c , S o , T , t a ) (17) f(m_m, s_m^2, B, tc, So | T, ta) \propto f(m_m, s_m^2, B, tc, So, T, ta) \tag{17} f(mm,sm2,B,tc,So∣T,ta)∝f(mm,sm2,B,tc,So,T,ta)(17)

由于贝叶斯网络结构较复杂，且维数高，无法直接从式（17）中求得所有变量的联合后验 PDF 的显式解析式。为此，采用 Gibbs 采样法进行马尔可夫链蒙特卡洛（MCMC）采样，进而学习 SFT 数据库。

Gibbs 采样算法是一种常用的 MCMC 方法，适用于各个变量的条件分布已知或易于采样的情形（例如 Robert 和 Casella, 2004；Brooks 等, 2011）。基于式（16）和贝叶斯网络，可推导出所有变量的条件后验分布。具体而言，先确定所有变量的初值 { m m ( 0 ) , s m 2 ( 0 ) , B ( 0 ) , t c ( 0 ) , S o ( 0 ) } \{ m_m^{(0)}, s_m^{2(0)}, B^{(0)}, tc^{(0)}, So^{(0)} \} {mm(0),sm2(0),B(0),tc(0),So(0)}，然后按下式依次进行采样（第 k k k 次迭代）：

从 f ( m m ∣ s m 2 ( k − 1 ) , B ( k − 1 ) , t c ( k − 1 ) , S o ( k − 1 ) , T , t a ) f(m_m | s_m^{2(k-1)}, B^{(k-1)}, tc^{(k-1)}, So^{(k-1)}, T, ta) f(mm∣sm2(k−1),B(k−1),tc(k−1),So(k−1),T,ta) 中采样 m m ( k ) m_m^{(k)} mm(k)
从 f ( s m 2 ∣ m m ( k ) , B ( k − 1 ) , t c ( k − 1 ) , S o ( k − 1 ) , T , t a ) f(s_m^2 | m_m^{(k)}, B^{(k-1)}, tc^{(k-1)}, So^{(k-1)}, T, ta) f(sm2∣mm(k),B(k−1),tc(k−1),So(k−1),T,ta) 中采样 s m 2 ( k ) s_m^{2(k)} sm2(k)
对 j = 1 , 2 , ... , r j=1,2,\dots,r j=1,2,...,r，依次：
- 从 f ( B j ∣ m m ( k ) , s m 2 ( k ) , B − j ( k − 1 ) , t c ( k − 1 ) , S o ( k − 1 ) , T , t a ) f(B_j | m_m^{(k)}, s_m^{2(k)}, B_{-j}^{(k-1)}, tc^{(k-1)}, So^{(k-1)}, T, ta) f(Bj∣mm(k),sm2(k),B−j(k−1),tc(k−1),So(k−1),T,ta) 中采样 B j ( k ) B_j^{(k)} Bj(k)
- 从 f ( t c j ∣ m m ( k ) , s m 2 ( k ) , B ( k ) , t c − j ( k − 1 ) , S o ( k − 1 ) , T , t a ) f(tc_j | m_m^{(k)}, s_m^{2(k)}, B^{(k)}, tc_{-j}^{(k-1)}, So^{(k-1)}, T, ta) f(tcj∣mm(k),sm2(k),B(k),tc−j(k−1),So(k−1),T,ta) 中采样 t c j ( k ) tc_j^{(k)} tcj(k)
- 从 f ( s o j 2 ∣ m m ( k ) , s m 2 ( k ) , B ( k ) , t c ( k ) , S o − j ( k − 1 ) , T , t a ) f(s_{oj}^2 | m_m^{(k)}, s_m^{2(k)}, B^{(k)}, tc^{(k)}, So_{-j}^{(k-1)}, T, ta) f(soj2∣mm(k),sm2(k),B(k),tc(k),So−j(k−1),T,ta) 中采样 s o j 2 ( k ) s_{oj}^{2(k)} soj2(k)

其中， B − j B_{-j} B−j 表示除第 j j j 个滑坡外的所有 B B B 值， t c − j tc_{-j} tc−j 和 S o − j So_{-j} So−j 同理。

依次迭代 N N N 次，舍弃前 N b N_b Nb 次作为"烧入期"（Burn-in）样本，保留后续样本估算感兴趣变量的后验分布及其统计量，例如均值、标准差和置信区间。Gibbs 采样的详细步骤、每个条件后验分布的解析表达式见附录。

5. 观测不确定性的机器学习

在前一章节中，方程 (4) 中的模型不确定性通过贝叶斯网络进行了校准。而在预测新滑坡失稳时间时，其观测不确定性同样需要进行校准。设新滑坡的 t c N t_{cN} tcN、 B N B_N BN 和 σ o N 2 \sigma^2_{oN} σoN2 分别为 t c t_c tc、 B B B 和 σ o 2 \sigma^2_o σo2。当将方程 (3) 应用于新滑坡时，有三个不确定变量，即 t c N t_{cN} tcN、 B N B_N BN 和 σ o N 2 \sigma^2_{oN} σoN2。设 b = ( t c N , B N ) T \mathbf{b} = (t_{cN}, B_N)^T b=(tcN,BN)T。假定在时刻 t N i t_{Ni} tNi，观测到的速度倒数为 R N i R_{Ni} RNi，共有 n N n_N nN 对 ( t N i , R N i ) (t_{Ni}, R_{Ni}) (tNi,RNi)。为了简化表示，设 t N = ( t N 1 , t N 2 , ... , t N n N ) T \mathbf{t}N = (t{N1}, t_{N2}, \dots, t_{Nn_N})^T tN=(tN1,tN2,...,tNnN)T， R N = ( R N 1 , R N 2 , ... , R N n N ) T \mathbf{R}N = (R{N1}, R_{N2}, \dots, R_{Nn_N})^T RN=(RN1,RN2,...,RNnN)T。

在给定 R N \mathbf{R}N RN、 b \mathbf{b} b 和 σ o N 2 \sigma^2{oN} σoN2 的情况下，似然函数表示如下：

L ( t N ∣ R N , b , σ o N 2 ) = ∏ i = 1 n N f ( t N i − t c N + B N R N i σ o N ) L(\mathbf{t}N | \mathbf{R}N, \mathbf{b}, \sigma^2{oN}) = \prod{i=1}^{n_N} f\left(\frac{t_{Ni} - t_{cN} + B_N R_{Ni}}{\sigma_{oN}}\right) L(tN∣RN,b,σoN2)=i=1∏nNf(σoNtNi−tcN+BNRNi)

（公式 18）

对 σ o N 2 \sigma^2_{oN} σoN2 和 b \mathbf{b} b，给定共轭先验分布（参考 Walter 和 Augustin, 2010）：

f ( σ o N 2 ) = Scale Inv- χ 2 ( n 0 , s 0 2 ) f(\sigma^2_{oN}) = \text{Scale Inv-}\chi^2(n_0, s^2_0) f(σoN2)=Scale Inv-χ2(n0,s02)

（公式 19）

f ( b ∣ σ o N 2 ) = MVNormal ( m 0 , σ o N 2 L 0 − 1 ) f(\mathbf{b} | \sigma^2_{oN}) = \text{MVNormal}(\mathbf{m}0, \sigma^2{oN} \mathbf{L}_0^{-1}) f(b∣σoN2)=MVNormal(m0,σoN2L0−1)

（公式 20）

其中， n 0 n_0 n0 表示自由度， s 0 2 s^2_0 s02 表示尺度参数， m 0 \mathbf{m}0 m0 表示均值， σ o N 2 L 0 − 1 \sigma^2{oN} \mathbf{L}_0^{-1} σoN2L0−1 表示协方差矩阵。当 n 0 → 0 + n_0 \rightarrow 0^+ n0→0+， 0 < s 0 2 < + ∞ 0 < s^2_0 < +\infty 0<s02<+∞ 且 L 0 → 0 \mathbf{L}_0 \rightarrow 0 L0→0，上述先验分布可视为无信息先验（Gelman et al., 2013）。

基于这些共轭先验和似然函数， σ o N 2 \sigma^2_{oN} σoN2 和 b \mathbf{b} b 的后验分布如下（参考 Korner-Nievergelt et al., 2015）：

f ( σ o N 2 ∣ t N , R N ) = Scale Inv- χ 2 ( n N , s N 2 ) f(\sigma^2_{oN} | \mathbf{t}_N, \mathbf{R}_N) = \text{Scale Inv-}\chi^2(n_N, s^2_N) f(σoN2∣tN,RN)=Scale Inv-χ2(nN,sN2)

（公式 21）

f ( b ∣ σ o N 2 , t N , R N ) = MVNormal ( m N , σ o N 2 L N − 1 ) f(\mathbf{b} | \sigma^2_{oN}, \mathbf{t}_N, \mathbf{R}_N) = \text{MVNormal}(\mathbf{m}N, \sigma^2{oN} \mathbf{L}_N^{-1}) f(b∣σoN2,tN,RN)=MVNormal(mN,σoN2LN−1)

（公式 22）

其中， m N \mathbf{m}_N mN、 L N \mathbf{L}_N LN、 n N n_N nN 和 s N 2 s^2_N sN2 为更新后的分布参数，其计算公式如下：

m N = ( X T X + L 0 ) − 1 ( L 0 m 0 + X T X b ^ ) \mathbf{m}_N = (\mathbf{X}^T \mathbf{X} + \mathbf{L}_0)^{-1} (\mathbf{L}_0 \mathbf{m}_0 + \mathbf{X}^T \mathbf{X} \hat{\mathbf{b}}) mN=(XTX+L0)−1(L0m0+XTXb^)

（公式 23）

L N = X T X + L 0 \mathbf{L}_N = \mathbf{X}^T \mathbf{X} + \mathbf{L}_0 LN=XTX+L0

（公式 24）

n N = n 0 + ( n N − p ) n_N = n_0 + (n_N - p) nN=n0+(nN−p)

（公式 25）

s N 2 = n 0 s 0 2 + t N T t N + m 0 T L 0 m 0 − m N T L N m N n N s^2_N = \frac{n_0 s^2_0 + \mathbf{t}_N^T \mathbf{t}_N + \mathbf{m}_0^T \mathbf{L}_0 \mathbf{m}_0 - \mathbf{m}_N^T \mathbf{L}_N \mathbf{m}_N}{n_N} sN2=nNn0s02+tNTtN+m0TL0m0−mNTLNmN

（公式 26）

其中 X = ( 1 n N × 1 , R N ) \mathbf{X} = (\mathbf{1}_{n_N \times 1}, \mathbf{R}_N) X=(1nN×1,RN) 为观测矩阵， b ^ = ( X T X ) − 1 X T t N \hat{\mathbf{b}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{t}_N b^=(XTX)−1XTtN， p p p 为 b \mathbf{b} b 的维度，在本文中 p = 2 p = 2 p=2。

基于公式 (23)-(26)，即可获得 b \mathbf{b} b（包括 t c N t_{cN} tcN）的后验样本。这里不要求 t c N t_{cN} tcN 的大样本假设，也不强制其服从正态分布，因此方法更加稳健。上述方法在文献中称作贝叶斯线性回归（Smith, 1973；Walter 和 Augustin, 2010）。

随后使用 Gibbs 采样方法，采样步骤如下：

根据公式 (21) 从 σ o N 2 \sigma^2_{oN} σoN2 的后验分布中抽取样本；
在条件给定 σ o N 2 \sigma^2_{oN} σoN2 的情况下，根据公式 (22) 从 b \mathbf{b} b 的后验分布中抽取样本，记 t c N t_{cN} tcN 为 b \mathbf{b} b 的首个元素；
重复步骤 1 和 2，直至采样数量足够。

便于说明，这里的 t c N t_{cN} tcN 样本集合记为 S-2。

9. SFT 预测方法对比分析

为展示所提出方法的优越性，本文对表 1 中每个滑坡的 SFT（Slope Failure Time）分别采用传统确定性方法、最大似然法（Maximum Likelihood Method）以及 BML（Bayesian Machine Learning）方法进行分析。

在采用最大似然法或 BML 方法分析表 1 中滑坡的 SFT 时，其余滑坡被用作训练数据集以学习模型不确定性。

首先，采用传统确定性方法预测 SFT，记由该方法计算的 SFT 为 t c N , d t_{cN,d} tcN,d。定义预测 SFT 与实际 SFT 之差为 D = t a − t c N , d D = t_a - t_{cN,d} D=ta−tcN,d。根据定义，若 D > 0 D > 0 D>0，则预测 SFT 早于实际失稳时间，容易导致虚警；若 D < 0 D < 0 D<0，则预测 SFT 晚于实际失稳时间，容易导致漏警（即预警过晚）。图 6 展示了表 1 中各滑坡对应的 D D D 值。

由图可见，55 个滑坡中有 33 个的 D D D 值为正，22 个为负。其中有 30 个滑坡的 ∣ D ∣ |D| ∣D∣ 值小于 1 天，说明 INVM（Inverse Velocity Method）在 SFT 预测中总体表现合理。但也观察到最大预测误差可达 94 天，显示预测误差主要受观测不确定性与模型不确定性共同影响。若忽略这两类不确定性，传统 INVM 的预测可靠性难以评估。

随后，采用最大似然法与 BML 方法分析表 1 中各滑坡的 SFT。图 7a 和 b 分别对比了两方法预测的 t c N t_{cN} tcN 均值与标准差（SD）。可见，两方法预测的 t c N t_{cN} tcN 均值相近，但最大似然法预测的 SD 普遍小于 BML 方法，说明最大似然法低估了观测不确定性。

图 7c 和 d 比较了两方法估计的 m m m_m mm 和 s m s_m sm。如前所述，最大似然法未考虑 m m m_m mm 和 s m s_m sm 的不确定性，因此结果以单点表示；而 BML 方法考虑了其不确定性，给出了 95% 置信区间（CI）。可见，最大似然法估计值基本落在 BML 方法的 95% CI 范围内，但 m m m_m mm 和 s m s_m sm 的不确定性不可忽略，表明最大似然法同样低估了模型不确定性。

图 7e 和 f 比较了两方法预测的 t a N t_{aN} taN 均值与 SD。结果表明，两方法预测的 t a N t_{aN} taN 均值基本一致，但最大似然法预测的 SD 普遍小于 BML 方法。这是合理的，因为最大似然法同样低估了模型不确定性与观测不确定性。

为检验最大似然法对 t c N t_{cN} tcN 和 t a N t_{aN} taN 所做正态性假设，图 8 给出了表 1 中各滑坡对应的 Jarque-Bera 统计量。显然，绝大多数滑坡的 Jarque-Bera 值均大于显著性水平 0.05 下的临界值 5.97，因此应拒绝正态性原假设。

定义预测 SFT 的 95% CI 上下界分别为 t a L t_{aL} taL 和 t a U t_{aU} taU，为了便于验证，定义标准化的实际 SFT：

t a , norm = t a − 1 2 ( t a L + t a U ) 1 2 ( t a U − t a L ) t_{a,\text{norm}} = \frac{t_a - \frac{1}{2}(t_{aL} + t_{aU})}{\frac{1}{2}(t_{aU} - t_{aL})} ta,norm=21(taU−taL)ta−21(taL+taU)

（公式 28）

根据定义，若 − 1 ≤ t a , norm ≤ 1 -1 \leq t_{a,\text{norm}} \leq 1 −1≤ta,norm≤1，说明实际 SFT 落在预测的 95% CI 内。若 t a , norm < − 1 t_{a,\text{norm}} < -1 ta,norm<−1，说明实际 SFT 早于预测区间下界；若 t a , norm > 1 t_{a,\text{norm}} > 1 ta,norm>1，则晚于预测区间上界。

图 9a 给出了以最大似然法预测 55 个滑坡 SFT 的 t a , norm t_{a,\text{norm}} ta,norm，发现有 6 个滑坡的预测 95% CI 未覆盖实际失稳时间。而图 9b 展示了 BML 方法预测结果，所有 55 个滑坡的实际 SFT 均落在预测 95% CI 内。

综上，尽管最大似然法在 SFT 预测中具有一定合理性，但因低估模型与观测不确定性，结果偏保守。而本文提出的 BML 方法假设更少，预测结果更可靠。

10. 结论

由于模型不确定性与观测不确定性的存在，准确预测滑坡失稳时间（SFT）具有挑战性。本文提出了一种基于 BML 的 SFT 预测方法，综合考虑了模型与观测不确定性，构建了全面的滑坡数据库，通过 INVM 学习模型不确定性。

与 BML 方法相比，现有最大似然法低估了模型与观测不确定性，从而也低估了实际失稳时间的不确定性。多方法预测结果对比表明，BML 方法预测结果与滑坡失稳现象观测值更为一致。