1. 统计推断-ALMOND收敛性分析

收敛性分析

[1. 预备知识](#1. 预备知识)
- [1.1. 离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)迭代式](#1.1. 离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)迭代式)
- [1.2. 基本符号](#1.2. 基本符号)
[2. Langevin 算法的误差分析](#2. Langevin 算法的误差分析)
- [2.1. 假设和引理](#2.1. 假设和引理)
- [2.2. 主要结论](#2.2. 主要结论)
[3. 算法的主要收敛性结果](#3. 算法的主要收敛性结果)

1. 预备知识

1.1. 离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)迭代式

Langevin 算法在生成所提出的随机梯度 g ~ ( β ; x , W t ) \tilde{g}\left(\boldsymbol{\beta} ; \boldsymbol{x}, \boldsymbol{W}_t\right) g~(β;x,Wt) 中起着核心作用，而该随机梯度又会进一步影响整体算法的收敛性。

考虑如下定义在 R r \mathbb{R}^r Rr 上的随机微分方程 (SDE)： ( 11 ) d W ( s ) = v t ( W ( s ) ) d s + 2 d B ( s ) , W ( 0 ) = w 0 , s ≥ 0 (11)\quad \mathrm{d} \boldsymbol{W}(s)=v_t(\boldsymbol{W}(s)) \mathrm{d} s+\sqrt{2} \mathrm{~d} \boldsymbol{B}(s), \quad \boldsymbol{W}(0)=\boldsymbol{w}_0, \quad s \geq 0 (11)dW(s)=vt(W(s))ds+2 dB(s),W(0)=w0,s≥0其中， v t ( z ) = ∂ log ⁡ $f θ t ( x ∣ h η t ( z ) ) π 0 ( z )$ / ∂ z v_t(\boldsymbol{z})=\partial \log \left $f_{\\theta_t}\\left(\\boldsymbol{x} \\mid h_{\\boldsymbol{\\eta}t}(\\boldsymbol{z})\\right) \\pi_0(\\boldsymbol{z})\\right$ / \partial \boldsymbol{z} vt(z)=∂log $fθt(x∣hηt(z))π0(z)$ /∂z 的定义见 3.2 节， B ( s ) \boldsymbol{B}(s) B(s) 是 r r r 维布朗运动。

解 W ( s ) \boldsymbol{W}(s) W(s) 通常称为 Langevin 扩散过程。设 E ν φ = ∫ φ ( z ) ν ( d z ) E\nu \varphi=\int \varphi(\boldsymbol{z}) \nu(\mathrm{d}\boldsymbol{z}) Eνφ=∫φ(z)ν(dz) 表示概率测度 ν \nu ν 下多元函数 φ : R r ↦ R \varphi: \mathbb{R}^r \mapsto \mathbb{R} φ:Rr↦R 的期望，前提是 φ \varphi φ 可积。

在一些温和条件下，已知 W ( s ) \boldsymbol{W}(s) W(s) 存在不变概率测度 π W \pi_W πW，其密度函数为 p ( w ) ∝ f θ t ( x ∣ h η t ( w ) ) π 0 ( w ) ∝ p β t ( w ∣ x ) , p(\boldsymbol{w}) \propto f_{\boldsymbol{\theta}t}\left(\boldsymbol{x} \mid h{\eta_t}(\boldsymbol{w})\right) \pi_0(\boldsymbol{w}) \propto p_{\beta_t}(\boldsymbol{w} \mid \boldsymbol{x}), p(w)∝fθt(x∣hηt(w))π0(w)∝pβt(w∣x),根据平均遍历定理， 1 T ∫ 0 T φ ( W ( s ) ) d s → P φ ˉ : = E π W φ , T → ∞ \frac{1}{T} \int_0^T \varphi(\boldsymbol{W}(s)) \mathrm{d} s \xrightarrow{P} \bar{\varphi}:=E_{\pi_W} \varphi, \quad T \rightarrow \infty T1∫0Tφ(W(s))dsP φˉ:=EπWφ,T→∞这些性质表明，W ( s ) \boldsymbol{W}(s) W(s) 的样本路径可以用来近似期望 φ ˉ \bar{\varphi} φˉ 。如果我们取 φ ( ⋅ ) = G ( β t ; x , ⋅ ) \varphi(\cdot)=G\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \cdot\right) φ(⋅)=G(βt;x,⋅)，那么 φ ˉ = g t ( β t ; x ) \bar{\varphi}=g_t\left(\boldsymbol{\beta}_t ; \boldsymbol{x}\right) φˉ=gt(βt;x)，这正是我们问题中所需的梯度。从这个意义上说，Langevin 扩散在估计难以处理的积分
g t ( β ; x ) = g ( β , β t ; x ) = ∫ ∂ log ⁡ $f θ ( x ∣ h η ( z ) )$ ∂ β p β t ( z ∣ x ) d z g_t(\boldsymbol{\beta} ; \boldsymbol{x})=g\left(\boldsymbol{\beta}, \boldsymbol{\beta}t ; \boldsymbol{x}\right)=\int \frac{\partial \log \left $f_\\theta\\left(\\boldsymbol{x} \\mid h_\\eta(\\boldsymbol{z})\\right)\\right$ }{\partial \boldsymbol{\beta}} p{\boldsymbol{\beta}_t}(\boldsymbol{z} \mid \boldsymbol{x}) \mathrm{d} \boldsymbol{z} gt(β;x)=g(β,βt;x)=∫∂β∂log $fθ(x∣hη(z))$ pβt(z∣x)dz时非常有力。

方程 (11) 的解一般没有闭式解，因此必须采用某些离散化方法。考虑如下离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)： ( 12 ) W ( k ) = W ( k − 1 ) + γ v ( W ( k − 1 ) ) + 2 γ ξ ( k ) , W ( 0 ) = w 0 , k = 1 , 2 , ... \begin{aligned} (12)\quad \boldsymbol{W}^{(k)}=\boldsymbol{W}^{(k-1)}+\gamma v\left(\boldsymbol{W}^{(k-1)}\right)+\sqrt{2 \gamma} \boldsymbol{\xi}^{(k)},\quad \boldsymbol{W}^{(0)}=\boldsymbol{w}0, \quad k=1,2, \ldots \end{aligned} (12)W(k)=W(k−1)+γv(W(k−1))+2γ ξ(k),W(0)=w0,k=1,2,...其中， γ \gamma γ 是步长， ξ ( k ) k = 1 ∞ ∼ i i d N ( 0 , I r ) {\boldsymbol{\xi}^{(k)}}{k=1}^{\infty} \stackrel{\mathrm{iid}}{\sim} N(\mathbf{0}, \mathbf{I}r) ξ(k)k=1∞∼iidN(0,Ir)，且 ξ ( k ) \boldsymbol{\xi}^{(k)} ξ(k) 与 W ( i ) i = 0 k − 1 {\boldsymbol{W}^{(i)}}{i=0}^{k-1} W(i)i=0k−1 独立。

我们将迭代式 (12) 称为 Langevin 算法。记 φ ~ = 1 K ∑ k = 0 K − 1 φ ( W ( k ) ) \tilde{\varphi}=\frac{1}{K} \sum_{k=0}^{K-1} \varphi\left(\boldsymbol{W}^{(k)}\right) φ~=K1∑k=0K−1φ(W(k))。在定理 1 中我们将展示， φ ~ \tilde{\varphi} φ~ 是 φ ˉ \bar{\varphi} φˉ 的一个良好估计，并给出了其有限样本下的偏差和均方误差界。

1.2. 基本符号

为建立主要结果，我们使用以下记号：记 ∣ ⋅ ∣ |\cdot| ∣⋅∣ 表示向量的欧几里得范数或高阶张量的算子范数。

若存在常数 C > 0 C>0 C>0 和整数 m ≥ 0 m \geq 0 m≥0，使得对所有 z ∈ R r z \in \mathbb{R}^r z∈Rr 都有 ∥ ϕ ( z ) ∥ ≤ C ( 1 + ∥ z ∥ m ) \|\phi(z)\| \leq C\left(1+\|z\|^m\right) ∥ϕ(z)∥≤C(1+∥z∥m)，则称映射 ϕ : R r ↦ R s \phi: \mathbb{R}^r \mapsto \mathbb{R}^s ϕ:Rr↦Rs 具有 多项式增长 。记号 ∇ i ϕ \nabla^i \phi ∇iϕ 表示 ϕ \phi ϕ 的第 i i i 阶导数。

设 ϕ : R r ↦ R \phi: \mathbb{R}^r \mapsto \mathbb{R} ϕ:Rr↦R 是一个多元函数，特别地规定 ∇ 0 ϕ ≡ ϕ \nabla^0 \phi \equiv \phi ∇0ϕ≡ϕ。对于 Langevin 扩散过程 W ( s ) W(s) W(s)，其生成元 A \mathcal{A} A 定义为 ( A ϕ ) ( x ) = v ( x ) T ∇ ϕ ( x ) + tr ⁡ ( ∇ 2 ϕ ( x ) ) = ∑ i = 1 r { v i ( x ) ∂ ϕ ∂ x i ( x ) + ∂ 2 ϕ ∂ x i 2 ( x ) } , \begin{aligned} (\mathcal{A} \phi)(\boldsymbol{x}) & =v(\boldsymbol{x})^{\mathrm{T}} \nabla \phi(\boldsymbol{x})+\operatorname{tr}\left(\nabla^2 \phi(\boldsymbol{x})\right) \\ & =\sum_{i=1}^r\left\{v_i(\boldsymbol{x}) \frac{\partial \phi}{\partial x_i}(\boldsymbol{x})+\frac{\partial^2 \phi}{\partial x_i^2}(\boldsymbol{x})\right\}, \end{aligned} (Aϕ)(x)=v(x)T∇ϕ(x)+tr(∇2ϕ(x))=i=1∑r{vi(x)∂xi∂ϕ(x)+∂xi2∂2ϕ(x)},其中 ϕ : R r ↦ R \phi: \mathbb{R}^r \mapsto \mathbb{R} ϕ:Rr↦R 是任意二阶可微函数。

2. Langevin 算法的误差分析

在复杂模型中成功使用 Langevin 算法的关键在于对其偏差进行仔细分析。比较 (11) 与 (12)，不难发现偏差的第一个来源是离散化，由参数 γ \gamma γ 控制；第二个来源是 φ ~ \tilde{\varphi} φ~ 中的有限样本量，由参数 K K K 控制。

目标是研究 φ ~ \tilde{\varphi} φ~ 的偏差和均方误差是如何与 γ \gamma γ 和 K K K 相关联的。

关于 Langevin 算法有限样本性质的研究已有相当丰富的文献。然而，这些结果大多数并不适用于我们的模型。例如，Roberts 和 Tweedie (1996) 主要研究了一维情形；Durmus 和 Moulines (2019)、Dalalyan (2017) 以及 Cheng 和 Bartlett (2018) 要求目标密度函数是对数凸的；Durmus 和 Moulines (2017) 与 Cheng 等 (2018) 分别研究了全变差距离和 1-Wasserstein 距离，而非均方误差。与我们模型设定最接近的结果来自 Mattingly, Stuart, 和 Tretyakov (2010) 以及 Vollmer, Zygalakis, 和 Teh (2016)，我们会在定理 1 之后与我们的贡献进行比较。

2.1. 假设和引理

设 φ : R r ↦ R \varphi: \mathbb{R}^r \mapsto \mathbb{R} φ:Rr↦R 是 4.1 节中的一个固定多元函数，则函数方程
A ψ = φ − φ ˉ \mathcal{A} \psi=\varphi-\bar{\varphi} Aψ=φ−φˉ称为 Poisson 方程，在 Langevin 扩散理论中起着重要作用。

下面的假设和引理给出了 ψ \psi ψ 及其导数存在的条件。

假设 1.(a) 对于每个 t ∈ N t \in \mathbb{N} t∈N，函数 v t ( z ) v_t(\boldsymbol{z}) vt(z) 满足耗散条件 ，即存在常数 a t = a t ( β t , x ) ≥ 0 a_t=a_t(\boldsymbol{\beta}_t,\boldsymbol{x}) \geq 0 at=at(βt,x)≥0 和 b t = b t ( β t , x ) ≥ 0 b_t=b_t(\boldsymbol{\beta}_t,\boldsymbol{x}) \geq 0 bt=bt(βt,x)≥0，使得对所有 z ∈ R r \boldsymbol{z} \in \mathbb{R}^r z∈Rr 都有 v t ( z ) T z ≤ a t − b t ∥ z ∥ 2 v_t(\boldsymbol{z})^{\mathrm{T}} \boldsymbol{z} \leq a_t-b_t\|\boldsymbol{z}\|^2 vt(z)Tz≤at−bt∥z∥2. (b) v t ( z ) v_t(\boldsymbol{z}) vt(z) 的导数在四阶以内有界。

假设 1 是随机微分方程文献中的常见正则性条件，用于保证扩散过程的稳定性。

引理 2 . 假设 φ \varphi φ 可导至四阶，且 φ \varphi φ 及其导数具有多项式增长。则在假设 1 下， ∇ i ψ ( z ) , i = 0 , 1 , 2 , 3 , 4 \nabla^i \psi(z), i=0,1,2,3,4 ∇iψ(z),i=0,1,2,3,4 存在且具有多项式增长，即存在常数 C i > 0 C_i>0 Ci>0 和整数 m i ≥ 0 , i = 0 , 1 , 2 , 3 , 4 m_i \geq 0, i=0,1,2,3,4 mi≥0,i=0,1,2,3,4，使得 ∣ ψ ( z ) ∣ ≤ C 0 ( 1 + ∥ z ∥ m 0 ) ∥ ∇ i ψ ( z ) ∥ ≤ C i ( 1 + ∥ z ∥ m i ) , i = 1 , 2 , 3 , 4. \begin{aligned} |\psi(z)| & \leq C_0\left(1+\|z\|^{m_0}\right) \\ \left\|\nabla^i \psi(z)\right\| & \leq C_i\left(1+\|z\|^{m_i}\right), \quad i=1,2,3,4 . \end{aligned} ∣ψ(z)∣ ∇iψ(z) ≤C0(1+∥z∥m0)≤Ci(1+∥z∥mi),i=1,2,3,4.

2.2. 主要结论

在引理 2 的条件下，我们已经准备好给出本节最重要的结论：Langevin 算法的偏差为 O ! ( γ + ( K γ ) − 1 ) O!\left(\gamma+(K \gamma)^{-1}\right) O!(γ+(Kγ)−1)，均方误差为 O ! ( γ 2 + ( K γ ) − 1 ) O!\left(\gamma^2+(K \gamma)^{-1}\right) O!(γ2+(Kγ)−1)。

定理 1. 设 φ , φ ˉ \varphi, \bar{\varphi} φ,φˉ 和 φ ~ \tilde{\varphi} φ~ 的定义同 4.1 节，并假设引理 2 的条件成立。则存在常数 C > 0 C>0 C>0 和 q > 0 q>0 q>0，使得对任意 K K K 和足够小的 γ \gamma γ，我们有
∣ E ( φ ~ ) − φ ˉ ∣ ≤ C ( 1 + ∥ w 0 ∥ q K γ + γ ) , E $( φ \~ − φ ˉ ) 2$ ≤ C { 1 K γ + ∥ w 0 ∥ q ( K γ ) 2 + γ 2 } . \begin{aligned} |E(\tilde{\varphi})-\bar{\varphi}| & \leq C\left(\frac{1+\left\|w_0\right\|^q}{K \gamma}+\gamma\right), \\ E\left $(\\tilde{\\varphi}-\\bar{\\varphi})\^2\\right$ & \leq C\left\{\frac{1}{K \gamma}+\frac{\left\|w_0\right\|^q}{(K \gamma)^2}+\gamma^2\right\} . \end{aligned} ∣E(φ~)−φˉ∣E $(φ\~−φˉ)2$ ≤C(Kγ1+∥w0∥q+γ),≤C{Kγ1+(Kγ)2∥w0∥q+γ2}.

定理 1 可以与 Mattingly, Stuart, 和 Tretyakov (2010) 的定理 5.1、5.2 以及 Vollmer, Zygalakis, 和 Teh (2016) 的定理 9 相比较。事实上，我们复现了这两篇工作的收敛速率。然而，Mattingly, Stuart, 和 Tretyakov (2010) 要求基础 SDE 定义在紧集上，这显然不适用于我们的问题。注意到 (11) 中定义的 W ( s ) \boldsymbol{W}(s) W(s) 可以取 R r \mathbb{R}^r Rr 中的任意值。Vollmer, Zygalakis, 和 Teh (2016) 的定理 9 放宽了 SDE 的定义域，但同时也施加了一些在实际中难以验证的严格假设。例如，其第一个假设直接作用于 Poisson 方程的解 ψ \psi ψ，而 ψ \psi ψ 只是隐式定义的，几乎没有闭式表达。相比之下，我们的结果仅仅要求相关函数满足一定的光滑性条件，因此可以视为对上述两个定理的重大推广。

对于所提出的随机梯度 g ~ ( β t ; x , W t ) \tilde{g}\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{W}t\right) g~(βt;x,Wt)，记 E β t $\cdot$ E{\boldsymbol{\beta}_t} $\\cdot$ Eβt $\cdot$ 表示在 β t \boldsymbol{\beta}_t βt 条件下的期望，则下面的推论表明我们可以将 g ~ ( β t ; x , W t ) \tilde{g}\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{W}_t\right) g~(βt;x,Wt) 的偏差和均方误差控制在任意小的范围内。

假设 2 . 对于每个 t ∈ N t \in \mathbb{N} t∈N 和固定的 β = β t \boldsymbol{\beta}=\boldsymbol{\beta}_t β=βt，函数 G ( β t ; x , z ) G\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{z}\right) G(βt;x,z) 作为 z \boldsymbol{z} z 的函数，在四阶以内可导；并且 G G G 及其导数具有多项式增长。

假设 2 表明， G ( β t ; x , z ) G\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{z}\right) G(βt;x,z) 及其导数作为 z z z 的函数，增长速度不会超过某个多项式函数。

推论 1 . 在假设 1 和 2 下，对于每个 t ∈ N t \in \mathbb{N} t∈N 和任意 0 < ε t < 1 0<\varepsilon_t<1 0<εt<1，存在一个与 ε t \varepsilon_t εt 无关的常数 C t > 0 C_t>0 Ct>0，使得当 γ t ≤ C t ε t \gamma_t \leq C_t \varepsilon_t γt≤Ctεt 且 M t ≥ γ t − 2 M_t \geq \gamma_t^{-2} Mt≥γt−2 时，有 ∥ E β t $g \~ ( β t ; x , W t )$ − g t ( β t ; x ) ∥ ≤ ε t , E β t $∥ g \~ ( β t ; x , W t ) − g t ( β t ; x ) ∥ 2$ ≤ ε t , \begin{gathered} \left\|E_{\boldsymbol{\beta}_t}\left $\\tilde{g}\\left(\\boldsymbol{\\beta}_t ; \\boldsymbol{x}, \\boldsymbol{W}_t\\right)\\right$ -g_t\left(\boldsymbol{\beta}t ; \boldsymbol{x}\right)\right\| \leq \varepsilon_t, \\ E{\boldsymbol{\beta}_t}\left $\\left\\\|\\tilde{g}\\left(\\boldsymbol{\\beta}_t ; \\boldsymbol{x}, \\boldsymbol{W}_t\\right)-g_t\\left(\\boldsymbol{\\beta}_t ; \\boldsymbol{x}\\right)\\right\\\|\^2\\right$ \leq \varepsilon_t, \end{gathered} Eβt $g\~(βt;x,Wt)$ −gt(βt;x) ≤εt,Eβt $∥g\~(βt;x,Wt)−gt(βt;x)∥2$ ≤εt,其中 g ~ \tilde{g} g~ 的定义见 (10)。

3. 算法的主要收敛性结果

本节我们展示算法 1 的收敛性质。

与第 3.1 节类似，在优化过程中我们考虑固定的 x \boldsymbol{x} x。推论 1 表明可以选择 γ t \gamma_t γt 和 M t M_t Mt 来保证不等式 (13) 与 (14) 成立。随后，定理 2 说明，通过适当选择步长 α t \alpha_t αt 和精度参数 ε t \varepsilon_t εt，序列 β t {\boldsymbol{\beta}_t} βt 可以收敛。

假设 3 . 设 g ( β , β ~ ; x ) = ∂ L ( β , β ~ ; x ) / ∂ β g(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x})=\partial \mathcal{L}(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}) / \partial \boldsymbol{\beta} g(β,β~;x)=∂L(β,β~;x)/∂β，其中 L ( β , β ~ ; x ) \mathcal{L}(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}) L(β,β~;x) 定义见 (7)。假设 g g g 满足如下 Lipschitz 型条件：存在常数 L > 0 L>0 L>0 使得对所有 β , β ′ , β ~ \boldsymbol{\beta}, \boldsymbol{\beta}^{\prime}, \tilde{\boldsymbol{\beta}} β,β′,β~，有 ∥ g ( β , β ~ ; x ) − g ( β ′ , β ~ ; x ) ∥ ≤ L ( ∥ β − β ′ ∥ + ∥ β − β ~ ∥ + ∥ β ′ − β ~ ∥ ) . \left\|g(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x})-g\left(\boldsymbol{\beta}^{\prime}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}\right)\right\| \leq L\left(\left\|\boldsymbol{\beta}-\boldsymbol{\beta}^{\prime}\right\|+\|\boldsymbol{\beta}-\tilde{\boldsymbol{\beta}}\|+\left\|\boldsymbol{\beta}^{\prime}-\tilde{\boldsymbol{\beta}}\right\|\right) . g(β,β~;x)−g(β′,β~;x) ≤L( β−β′ +∥β−β~∥+ β′−β~ ).假设 3 本质上对函数 L ( β , β ~ ; x ) \mathcal{L}(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}) L(β,β~;x) 施加了平滑性条件，即其梯度 g ( ⋅ ) g(\cdot) g(⋅) 不会随自变量变化过快。

定理 2 . 假设假设 3 成立，且 γ t \gamma_t γt 与 M t M_t Mt 的选择满足推论 1。令 α t {\alpha_t} αt 与 ε t {\varepsilon_t} εt 为两个正的递减序列，满足 α 1 < 1 / ( 4 L ) \alpha_1<1 /(4 L) α1<1/(4L)， ∑ t = 1 ∞ α t = ∞ , ; ∑ t = 1 ∞ α t 2 < ∞ \sum_{t=1}^{\infty} \alpha_t=\infty,; \sum_{t=1}^{\infty} \alpha_t^2<\infty ∑t=1∞αt=∞,;∑t=1∞αt2<∞，以及 ∑ t = 1 ∞ α t ε t 2 < ∞ \sum_{t=1}^{\infty} \alpha_t \varepsilon_t^2<\infty ∑t=1∞αtεt2<∞。则有 lim inf ⁡ t → ∞ E $∥ g t ( β t ; x ) ∥ 2$ = lim inf ⁡ t → ∞ E $∥ g ( β t , β t ; x ) ∥ 2$ = 0. \liminf _{t \rightarrow \infty} E\left $\\left\\\|g_t\\left(\\boldsymbol{\\beta}_t ; \\boldsymbol{x}\\right)\\right\\\|\^2\\right$ =\liminf _{t \rightarrow \infty} E\left $\\left\\\|g\\left(\\boldsymbol{\\beta}_t, \\boldsymbol{\\beta}_t ; \\boldsymbol{x}\\right)\\right\\\|\^2\\right$ =0 . t→∞liminfE $∥gt(βt;x)∥2$ =t→∞liminfE $∥g(βt,βt;x)∥2$ =0.特别地，上述条件在 α t ≍ O ( t − 1 ) \alpha_t \asymp O(t^{-1}) αt≍O(t−1) 且 ε t = O ( t − c ) \varepsilon_t= O(t^{-c}) εt=O(t−c)（任意 c > 0 c>0 c>0）时成立。

此外，若存在 β ∗ \boldsymbol{\beta}^* β∗ 满足 ∣ g ( β , β ∗ ; x ) ∣ = 0 |g(\boldsymbol{\beta}^, \boldsymbol{\beta}^* ; \boldsymbol{x})|=0 ∣g(β,β∗;x)∣=0，且 ℓ ( ⋅ ; x ) \ell(\cdot ; \boldsymbol{x}) ℓ(⋅;x) 与 L ( ⋅ , β ∗ ; x ) \mathcal{L}(\cdot, \boldsymbol{\beta}^* ; \boldsymbol{x}) L(⋅,β∗;x) 在 β ∗ \beta^* β∗ 的邻域内二阶连续可微，则有 ∂ ℓ ( β ; x ) ∂ β ∣ β = β ∗ = 0. \left.\frac{\partial \ell(\beta ; x)}{\partial \beta}\right|_{\beta=\beta^*}=0 . ∂β∂ℓ(β;x) β=β∗=0.定理 2 的第一部分表明，在期望意义下，梯度序列 g t ( β t ; x ) g_t(\boldsymbol{\beta}_t ; \boldsymbol{x}) gt(βt;x) 不可能始终保持远离零，尽管其极限可能不存在。第二部分说明，如果确实存在某个固定点 β ∗ \boldsymbol{\beta}^* β∗ 使得 g ( β , β ∗ ; x ) = 0 g(\boldsymbol{\beta}^, \boldsymbol{\beta}^* ; \boldsymbol{x})=\mathbf{0} g(β,β∗;x)=0，那么该点同时也是似然函数的一个平稳点。

最后，我们指出，该方法可以很容易地通过 mini-batch 策略扩展到大规模数据集，并且其收敛性依然成立。在 (10) 中，随机梯度是针对单个 x \boldsymbol{x} x 定义的。对于大规模数据集 X 1 , ... , X n \boldsymbol{X}1, \ldots, \boldsymbol{X}n X1,...,Xn，我们可以随机选择一个 mini-batch X i ( 1 ) , ... , X i ( m ) \boldsymbol{X}{i(1)}, \ldots, \boldsymbol{X}{i(m)} Xi(1),...,Xi(m)，其中 m m m 为 mini-batch 的大小， ( i ( 1 ) , ... , i ( m ) ) T (i(1), \ldots, i(m))^{\mathrm{T}} (i(1),...,i(m))T 是 ( 1 , ... , n ) T (1, \ldots, n)^{\mathrm{T}} (1,...,n)T 的一个随机子样本。定义 mini-batch 随机梯度为 g ~ m i n i = m − 1 ∑ j = 1 m g ~ ( β ; X i ( j ) , W t ( j ) ) , \tilde{g}{\mathrm{mini}}=m^{-1} \sum{j=1}^m \tilde{g}\left(\boldsymbol{\beta} ; \boldsymbol{X}{i(j)}, \boldsymbol{W}{t(j)}\right), g~mini=m−1j=1∑mg~(β;Xi(j),Wt(j)),其中 W t ( j ) \boldsymbol{W}{t(j)} Wt(j) 表示第 j j j 个独立的 Langevin 序列副本。可以看出， g ~ mini \tilde{g}{\text{mini}} g~mini 与单个 x \boldsymbol{x} x 的 g ~ \tilde{g} g~ 具有相同的期望，而方差仅缩放了一个常数因子。因此，推论 1 对 g ~ mini \tilde{g}_{\text{mini}} g~mini 依然成立，只需调整相应常数，从而保证算法整体的收敛性。