收敛性分析
- [1. 预备知识](#1. 预备知识)
-
- [1.1. 离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)迭代式](#1.1. 离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)迭代式)
- [1.2. 基本符号](#1.2. 基本符号)
- [2. Langevin 算法的误差分析](#2. Langevin 算法的误差分析)
-
- [2.1. 假设和引理](#2.1. 假设和引理)
- [2.2. 主要结论](#2.2. 主要结论)
- [3. 算法的主要收敛性结果](#3. 算法的主要收敛性结果)
1. 预备知识
1.1. 离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k)迭代式
Langevin 算法在生成所提出的随机梯度 g ~ ( β ; x , W t ) \tilde{g}\left(\boldsymbol{\beta} ; \boldsymbol{x}, \boldsymbol{W}_t\right) g~(β;x,Wt) 中起着核心作用,而该随机梯度又会进一步影响整体算法的收敛性。
考虑如下定义在 R r \mathbb{R}^r Rr 上的随机微分方程 (SDE): ( 11 ) d W ( s ) = v t ( W ( s ) ) d s + 2 d B ( s ) , W ( 0 ) = w 0 , s ≥ 0 (11)\quad \mathrm{d} \boldsymbol{W}(s)=v_t(\boldsymbol{W}(s)) \mathrm{d} s+\sqrt{2} \mathrm{~d} \boldsymbol{B}(s), \quad \boldsymbol{W}(0)=\boldsymbol{w}0, \quad s \geq 0 (11)dW(s)=vt(W(s))ds+2 dB(s),W(0)=w0,s≥0其中, v t ( z ) = ∂ log [ f θ t ( x ∣ h η t ( z ) ) π 0 ( z ) ] / ∂ z v_t(\boldsymbol{z})=\partial \log \left[f{\theta_t}\left(\boldsymbol{x} \mid h_{\boldsymbol{\eta}t}(\boldsymbol{z})\right) \pi_0(\boldsymbol{z})\right] / \partial \boldsymbol{z} vt(z)=∂log[fθt(x∣hηt(z))π0(z)]/∂z 的定义见 3.2 节, B ( s ) \boldsymbol{B}(s) B(s) 是 r r r 维布朗运动。
解 W ( s ) \boldsymbol{W}(s) W(s) 通常称为 Langevin 扩散过程。设 E ν φ = ∫ φ ( z ) ν ( d z ) E\nu \varphi=\int \varphi(\boldsymbol{z}) \nu(\mathrm{d}\boldsymbol{z}) Eνφ=∫φ(z)ν(dz) 表示概率测度 ν \nu ν 下多元函数 φ : R r ↦ R \varphi: \mathbb{R}^r \mapsto \mathbb{R} φ:Rr↦R 的期望,前提是 φ \varphi φ 可积。
在一些温和条件下,已知 W ( s ) \boldsymbol{W}(s) W(s) 存在不变概率测度 π W \pi_W πW,其密度函数为 p ( w ) ∝ f θ t ( x ∣ h η t ( w ) ) π 0 ( w ) ∝ p β t ( w ∣ x ) , p(\boldsymbol{w}) \propto f_{\boldsymbol{\theta}t}\left(\boldsymbol{x} \mid h{\eta_t}(\boldsymbol{w})\right) \pi_0(\boldsymbol{w}) \propto p_{\beta_t}(\boldsymbol{w} \mid \boldsymbol{x}), p(w)∝fθt(x∣hηt(w))π0(w)∝pβt(w∣x),根据平均遍历定理, 1 T ∫ 0 T φ ( W ( s ) ) d s → P φ ˉ : = E π W φ , T → ∞ \frac{1}{T} \int_0^T \varphi(\boldsymbol{W}(s)) \mathrm{d} s \xrightarrow{P} \bar{\varphi}:=E_{\pi_W} \varphi, \quad T \rightarrow \infty T1∫0Tφ(W(s))dsP φˉ:=EπWφ,T→∞这些性质表明,W ( s ) \boldsymbol{W}(s) W(s) 的样本路径可以用来近似期望 φ ˉ \bar{\varphi} φˉ 。如果我们取 φ ( ⋅ ) = G ( β t ; x , ⋅ ) \varphi(\cdot)=G\left(\boldsymbol{\beta}t ; \boldsymbol{x}, \cdot\right) φ(⋅)=G(βt;x,⋅),那么 φ ˉ = g t ( β t ; x ) \bar{\varphi}=g_t\left(\boldsymbol{\beta}t ; \boldsymbol{x}\right) φˉ=gt(βt;x),这正是我们问题中所需的梯度。从这个意义上说,Langevin 扩散在估计难以处理的积分
g t ( β ; x ) = g ( β , β t ; x ) = ∫ ∂ log [ f θ ( x ∣ h η ( z ) ) ] ∂ β p β t ( z ∣ x ) d z g_t(\boldsymbol{\beta} ; \boldsymbol{x})=g\left(\boldsymbol{\beta}, \boldsymbol{\beta}t ; \boldsymbol{x}\right)=\int \frac{\partial \log \left[f\theta\left(\boldsymbol{x} \mid h\eta(\boldsymbol{z})\right)\right]}{\partial \boldsymbol{\beta}} p{\boldsymbol{\beta}_t}(\boldsymbol{z} \mid \boldsymbol{x}) \mathrm{d} \boldsymbol{z} gt(β;x)=g(β,βt;x)=∫∂β∂log[fθ(x∣hη(z))]pβt(z∣x)dz时非常有力。
方程 (11) 的解一般没有闭式解,因此必须采用某些离散化方法。考虑如下离散化链 W ( k ) {\boldsymbol{W}^{(k)}} W(k): ( 12 ) W ( k ) = W ( k − 1 ) + γ v ( W ( k − 1 ) ) + 2 γ ξ ( k ) , W ( 0 ) = w 0 , k = 1 , 2 , ... \begin{aligned} (12)\quad \boldsymbol{W}^{(k)}=\boldsymbol{W}^{(k-1)}+\gamma v\left(\boldsymbol{W}^{(k-1)}\right)+\sqrt{2 \gamma} \boldsymbol{\xi}^{(k)},\quad \boldsymbol{W}^{(0)}=\boldsymbol{w}0, \quad k=1,2, \ldots \end{aligned} (12)W(k)=W(k−1)+γv(W(k−1))+2γ ξ(k),W(0)=w0,k=1,2,...其中, γ \gamma γ 是步长, ξ ( k ) k = 1 ∞ ∼ i i d N ( 0 , I r ) {\boldsymbol{\xi}^{(k)}}{k=1}^{\infty} \stackrel{\mathrm{iid}}{\sim} N(\mathbf{0}, \mathbf{I}r) ξ(k)k=1∞∼iidN(0,Ir),且 ξ ( k ) \boldsymbol{\xi}^{(k)} ξ(k) 与 W ( i ) i = 0 k − 1 {\boldsymbol{W}^{(i)}}{i=0}^{k-1} W(i)i=0k−1 独立。
我们将迭代式 (12) 称为 Langevin 算法。记 φ ~ = 1 K ∑ k = 0 K − 1 φ ( W ( k ) ) \tilde{\varphi}=\frac{1}{K} \sum_{k=0}^{K-1} \varphi\left(\boldsymbol{W}^{(k)}\right) φ~=K1∑k=0K−1φ(W(k))。在定理 1 中我们将展示, φ ~ \tilde{\varphi} φ~ 是 φ ˉ \bar{\varphi} φˉ 的一个良好估计,并给出了其有限样本下的偏差和均方误差界。
1.2. 基本符号
为建立主要结果,我们使用以下记号:记 ∣ ⋅ ∣ |\cdot| ∣⋅∣ 表示向量的欧几里得范数或高阶张量的算子范数。
若存在常数 C > 0 C>0 C>0 和整数 m ≥ 0 m \geq 0 m≥0,使得对所有 z ∈ R r z \in \mathbb{R}^r z∈Rr 都有 ∥ ϕ ( z ) ∥ ≤ C ( 1 + ∥ z ∥ m ) \|\phi(z)\| \leq C\left(1+\|z\|^m\right) ∥ϕ(z)∥≤C(1+∥z∥m),则称映射 ϕ : R r ↦ R s \phi: \mathbb{R}^r \mapsto \mathbb{R}^s ϕ:Rr↦Rs 具有 多项式增长 。记号 ∇ i ϕ \nabla^i \phi ∇iϕ 表示 ϕ \phi ϕ 的第 i i i 阶导数。
设 ϕ : R r ↦ R \phi: \mathbb{R}^r \mapsto \mathbb{R} ϕ:Rr↦R 是一个多元函数,特别地规定 ∇ 0 ϕ ≡ ϕ \nabla^0 \phi \equiv \phi ∇0ϕ≡ϕ。对于 Langevin 扩散过程 W ( s ) W(s) W(s),其生成元 A \mathcal{A} A 定义为 ( A ϕ ) ( x ) = v ( x ) T ∇ ϕ ( x ) + tr ( ∇ 2 ϕ ( x ) ) = ∑ i = 1 r { v i ( x ) ∂ ϕ ∂ x i ( x ) + ∂ 2 ϕ ∂ x i 2 ( x ) } , \begin{aligned} (\mathcal{A} \phi)(\boldsymbol{x}) & =v(\boldsymbol{x})^{\mathrm{T}} \nabla \phi(\boldsymbol{x})+\operatorname{tr}\left(\nabla^2 \phi(\boldsymbol{x})\right) \\ & =\sum_{i=1}^r\left\{v_i(\boldsymbol{x}) \frac{\partial \phi}{\partial x_i}(\boldsymbol{x})+\frac{\partial^2 \phi}{\partial x_i^2}(\boldsymbol{x})\right\}, \end{aligned} (Aϕ)(x)=v(x)T∇ϕ(x)+tr(∇2ϕ(x))=i=1∑r{vi(x)∂xi∂ϕ(x)+∂xi2∂2ϕ(x)},其中 ϕ : R r ↦ R \phi: \mathbb{R}^r \mapsto \mathbb{R} ϕ:Rr↦R 是任意二阶可微函数。
2. Langevin 算法的误差分析
在复杂模型中成功使用 Langevin 算法的关键在于对其偏差进行仔细分析。比较 (11) 与 (12),不难发现偏差的第一个来源是离散化,由参数 γ \gamma γ 控制;第二个来源是 φ ~ \tilde{\varphi} φ~ 中的有限样本量,由参数 K K K 控制。
目标是研究 φ ~ \tilde{\varphi} φ~ 的偏差和均方误差是如何与 γ \gamma γ 和 K K K 相关联的。
关于 Langevin 算法有限样本性质的研究已有相当丰富的文献。然而,这些结果大多数并不适用于我们的模型。例如,Roberts 和 Tweedie (1996) 主要研究了一维情形;Durmus 和 Moulines (2019)、Dalalyan (2017) 以及 Cheng 和 Bartlett (2018) 要求目标密度函数是对数凸的;Durmus 和 Moulines (2017) 与 Cheng 等 (2018) 分别研究了全变差距离和 1-Wasserstein 距离,而非均方误差。与我们模型设定最接近的结果来自 Mattingly, Stuart, 和 Tretyakov (2010) 以及 Vollmer, Zygalakis, 和 Teh (2016),我们会在定理 1 之后与我们的贡献进行比较。
2.1. 假设和引理
设 φ : R r ↦ R \varphi: \mathbb{R}^r \mapsto \mathbb{R} φ:Rr↦R 是 4.1 节中的一个固定多元函数,则函数方程
A ψ = φ − φ ˉ \mathcal{A} \psi=\varphi-\bar{\varphi} Aψ=φ−φˉ称为 Poisson 方程,在 Langevin 扩散理论中起着重要作用。
下面的假设和引理给出了 ψ \psi ψ 及其导数存在的条件。
假设 1.(a) 对于每个 t ∈ N t \in \mathbb{N} t∈N,函数 v t ( z ) v_t(\boldsymbol{z}) vt(z) 满足耗散条件 ,即存在常数 a t = a t ( β t , x ) ≥ 0 a_t=a_t(\boldsymbol{\beta}_t,\boldsymbol{x}) \geq 0 at=at(βt,x)≥0 和 b t = b t ( β t , x ) ≥ 0 b_t=b_t(\boldsymbol{\beta}_t,\boldsymbol{x}) \geq 0 bt=bt(βt,x)≥0,使得对所有 z ∈ R r \boldsymbol{z} \in \mathbb{R}^r z∈Rr 都有 v t ( z ) T z ≤ a t − b t ∥ z ∥ 2 v_t(\boldsymbol{z})^{\mathrm{T}} \boldsymbol{z} \leq a_t-b_t\|\boldsymbol{z}\|^2 vt(z)Tz≤at−bt∥z∥2. (b) v t ( z ) v_t(\boldsymbol{z}) vt(z) 的导数在四阶以内有界。
假设 1 是随机微分方程文献中的常见正则性条件,用于保证扩散过程的稳定性。
引理 2 . 假设 φ \varphi φ 可导至四阶,且 φ \varphi φ 及其导数具有多项式增长。则在假设 1 下, ∇ i ψ ( z ) , i = 0 , 1 , 2 , 3 , 4 \nabla^i \psi(z), i=0,1,2,3,4 ∇iψ(z),i=0,1,2,3,4 存在且具有多项式增长,即存在常数 C i > 0 C_i>0 Ci>0 和整数 m i ≥ 0 , i = 0 , 1 , 2 , 3 , 4 m_i \geq 0, i=0,1,2,3,4 mi≥0,i=0,1,2,3,4,使得 ∣ ψ ( z ) ∣ ≤ C 0 ( 1 + ∥ z ∥ m 0 ) ∥ ∇ i ψ ( z ) ∥ ≤ C i ( 1 + ∥ z ∥ m i ) , i = 1 , 2 , 3 , 4. \begin{aligned} |\psi(z)| & \leq C_0\left(1+\|z\|^{m_0}\right) \\ \left\|\nabla^i \psi(z)\right\| & \leq C_i\left(1+\|z\|^{m_i}\right), \quad i=1,2,3,4 . \end{aligned} ∣ψ(z)∣ ∇iψ(z) ≤C0(1+∥z∥m0)≤Ci(1+∥z∥mi),i=1,2,3,4.
2.2. 主要结论
在引理 2 的条件下,我们已经准备好给出本节最重要的结论:Langevin 算法的偏差为 O ! ( γ + ( K γ ) − 1 ) O!\left(\gamma+(K \gamma)^{-1}\right) O!(γ+(Kγ)−1),均方误差为 O ! ( γ 2 + ( K γ ) − 1 ) O!\left(\gamma^2+(K \gamma)^{-1}\right) O!(γ2+(Kγ)−1)。
定理 1. 设 φ , φ ˉ \varphi, \bar{\varphi} φ,φˉ 和 φ ~ \tilde{\varphi} φ~ 的定义同 4.1 节,并假设引理 2 的条件成立。则存在常数 C > 0 C>0 C>0 和 q > 0 q>0 q>0,使得对任意 K K K 和足够小的 γ \gamma γ,我们有
∣ E ( φ ~ ) − φ ˉ ∣ ≤ C ( 1 + ∥ w 0 ∥ q K γ + γ ) , E [ ( φ ~ − φ ˉ ) 2 ] ≤ C { 1 K γ + ∥ w 0 ∥ q ( K γ ) 2 + γ 2 } . \begin{aligned} |E(\tilde{\varphi})-\bar{\varphi}| & \leq C\left(\frac{1+\left\|w_0\right\|^q}{K \gamma}+\gamma\right), \\ E\left[(\tilde{\varphi}-\bar{\varphi})^2\right] & \leq C\left\{\frac{1}{K \gamma}+\frac{\left\|w_0\right\|^q}{(K \gamma)^2}+\gamma^2\right\} . \end{aligned} ∣E(φ~)−φˉ∣E[(φ~−φˉ)2]≤C(Kγ1+∥w0∥q+γ),≤C{Kγ1+(Kγ)2∥w0∥q+γ2}.
定理 1 可以与 Mattingly, Stuart, 和 Tretyakov (2010) 的定理 5.1、5.2 以及 Vollmer, Zygalakis, 和 Teh (2016) 的定理 9 相比较。事实上,我们复现了这两篇工作的收敛速率。然而,Mattingly, Stuart, 和 Tretyakov (2010) 要求基础 SDE 定义在紧集上,这显然不适用于我们的问题。注意到 (11) 中定义的 W ( s ) \boldsymbol{W}(s) W(s) 可以取 R r \mathbb{R}^r Rr 中的任意值。Vollmer, Zygalakis, 和 Teh (2016) 的定理 9 放宽了 SDE 的定义域,但同时也施加了一些在实际中难以验证的严格假设。例如,其第一个假设直接作用于 Poisson 方程的解 ψ \psi ψ,而 ψ \psi ψ 只是隐式定义的,几乎没有闭式表达。相比之下,我们的结果仅仅要求相关函数满足一定的光滑性条件,因此可以视为对上述两个定理的重大推广。
对于所提出的随机梯度 g ~ ( β t ; x , W t ) \tilde{g}\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{W}t\right) g~(βt;x,Wt),记 E β t [ ⋅ ] E{\boldsymbol{\beta}_t}[\cdot] Eβt[⋅] 表示在 β t \boldsymbol{\beta}_t βt 条件下的期望,则下面的推论表明我们可以将 g ~ ( β t ; x , W t ) \tilde{g}\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{W}_t\right) g~(βt;x,Wt) 的偏差和均方误差控制在任意小的范围内。
假设 2 . 对于每个 t ∈ N t \in \mathbb{N} t∈N 和固定的 β = β t \boldsymbol{\beta}=\boldsymbol{\beta}_t β=βt,函数 G ( β t ; x , z ) G\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{z}\right) G(βt;x,z) 作为 z \boldsymbol{z} z 的函数,在四阶以内可导;并且 G G G 及其导数具有多项式增长。
假设 2 表明, G ( β t ; x , z ) G\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{z}\right) G(βt;x,z) 及其导数作为 z z z 的函数,增长速度不会超过某个多项式函数。
推论 1 . 在假设 1 和 2 下,对于每个 t ∈ N t \in \mathbb{N} t∈N 和任意 0 < ε t < 1 0<\varepsilon_t<1 0<εt<1,存在一个与 ε t \varepsilon_t εt 无关的常数 C t > 0 C_t>0 Ct>0,使得当 γ t ≤ C t ε t \gamma_t \leq C_t \varepsilon_t γt≤Ctεt 且 M t ≥ γ t − 2 M_t \geq \gamma_t^{-2} Mt≥γt−2 时,有 ∥ E β t [ g ~ ( β t ; x , W t ) ] − g t ( β t ; x ) ∥ ≤ ε t , E β t [ ∥ g ~ ( β t ; x , W t ) − g t ( β t ; x ) ∥ 2 ] ≤ ε t , \begin{gathered} \left\|E_{\boldsymbol{\beta}_t}\left[\tilde{g}\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{W}_t\right)\right]-g_t\left(\boldsymbol{\beta}t ; \boldsymbol{x}\right)\right\| \leq \varepsilon_t, \\ E{\boldsymbol{\beta}_t}\left[\left\|\tilde{g}\left(\boldsymbol{\beta}_t ; \boldsymbol{x}, \boldsymbol{W}_t\right)-g_t\left(\boldsymbol{\beta}_t ; \boldsymbol{x}\right)\right\|^2\right] \leq \varepsilon_t, \end{gathered} Eβt[g~(βt;x,Wt)]−gt(βt;x) ≤εt,Eβt[∥g~(βt;x,Wt)−gt(βt;x)∥2]≤εt,其中 g ~ \tilde{g} g~ 的定义见 (10)。
3. 算法的主要收敛性结果
本节我们展示算法 1 的收敛性质。
与第 3.1 节类似,在优化过程中我们考虑固定的 x \boldsymbol{x} x。推论 1 表明可以选择 γ t \gamma_t γt 和 M t M_t Mt 来保证不等式 (13) 与 (14) 成立。随后,定理 2 说明,通过适当选择步长 α t \alpha_t αt 和精度参数 ε t \varepsilon_t εt,序列 β t {\boldsymbol{\beta}_t} βt 可以收敛。
假设 3 . 设 g ( β , β ~ ; x ) = ∂ L ( β , β ~ ; x ) / ∂ β g(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x})=\partial \mathcal{L}(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}) / \partial \boldsymbol{\beta} g(β,β~;x)=∂L(β,β~;x)/∂β,其中 L ( β , β ~ ; x ) \mathcal{L}(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}) L(β,β~;x) 定义见 (7)。假设 g g g 满足如下 Lipschitz 型条件:存在常数 L > 0 L>0 L>0 使得对所有 β , β ′ , β ~ \boldsymbol{\beta}, \boldsymbol{\beta}^{\prime}, \tilde{\boldsymbol{\beta}} β,β′,β~,有 ∥ g ( β , β ~ ; x ) − g ( β ′ , β ~ ; x ) ∥ ≤ L ( ∥ β − β ′ ∥ + ∥ β − β ~ ∥ + ∥ β ′ − β ~ ∥ ) . \left\|g(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x})-g\left(\boldsymbol{\beta}^{\prime}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}\right)\right\| \leq L\left(\left\|\boldsymbol{\beta}-\boldsymbol{\beta}^{\prime}\right\|+\|\boldsymbol{\beta}-\tilde{\boldsymbol{\beta}}\|+\left\|\boldsymbol{\beta}^{\prime}-\tilde{\boldsymbol{\beta}}\right\|\right) . g(β,β~;x)−g(β′,β~;x) ≤L( β−β′ +∥β−β~∥+ β′−β~ ).假设 3 本质上对函数 L ( β , β ~ ; x ) \mathcal{L}(\boldsymbol{\beta}, \tilde{\boldsymbol{\beta}} ; \boldsymbol{x}) L(β,β~;x) 施加了平滑性条件,即其梯度 g ( ⋅ ) g(\cdot) g(⋅) 不会随自变量变化过快。
定理 2 . 假设假设 3 成立,且 γ t \gamma_t γt 与 M t M_t Mt 的选择满足推论 1。令 α t {\alpha_t} αt 与 ε t {\varepsilon_t} εt 为两个正的递减序列,满足 α 1 < 1 / ( 4 L ) \alpha_1<1 /(4 L) α1<1/(4L), ∑ t = 1 ∞ α t = ∞ , ; ∑ t = 1 ∞ α t 2 < ∞ \sum_{t=1}^{\infty} \alpha_t=\infty,; \sum_{t=1}^{\infty} \alpha_t^2<\infty ∑t=1∞αt=∞,;∑t=1∞αt2<∞,以及 ∑ t = 1 ∞ α t ε t 2 < ∞ \sum_{t=1}^{\infty} \alpha_t \varepsilon_t^2<\infty ∑t=1∞αtεt2<∞。则有 lim inf t → ∞ E [ ∥ g t ( β t ; x ) ∥ 2 ] = lim inf t → ∞ E [ ∥ g ( β t , β t ; x ) ∥ 2 ] = 0. \liminf _{t \rightarrow \infty} E\left[\left\|g_t\left(\boldsymbol{\beta}_t ; \boldsymbol{x}\right)\right\|^2\right]=\liminf _{t \rightarrow \infty} E\left[\left\|g\left(\boldsymbol{\beta}_t, \boldsymbol{\beta}_t ; \boldsymbol{x}\right)\right\|^2\right]=0 . t→∞liminfE[∥gt(βt;x)∥2]=t→∞liminfE[∥g(βt,βt;x)∥2]=0.特别地,上述条件在 α t ≍ O ( t − 1 ) \alpha_t \asymp O(t^{-1}) αt≍O(t−1) 且 ε t = O ( t − c ) \varepsilon_t= O(t^{-c}) εt=O(t−c)(任意 c > 0 c>0 c>0)时成立。
此外,若存在 β ∗ \boldsymbol{\beta}^* β∗ 满足 ∣ g ( β , β ∗ ; x ) ∣ = 0 |g(\boldsymbol{\beta}^, \boldsymbol{\beta}^* ; \boldsymbol{x})|=0 ∣g(β,β∗;x)∣=0,且 ℓ ( ⋅ ; x ) \ell(\cdot ; \boldsymbol{x}) ℓ(⋅;x) 与 L ( ⋅ , β ∗ ; x ) \mathcal{L}(\cdot, \boldsymbol{\beta}^* ; \boldsymbol{x}) L(⋅,β∗;x) 在 β ∗ \beta^* β∗ 的邻域内二阶连续可微,则有 ∂ ℓ ( β ; x ) ∂ β ∣ β = β ∗ = 0. \left.\frac{\partial \ell(\beta ; x)}{\partial \beta}\right|_{\beta=\beta^*}=0 . ∂β∂ℓ(β;x) β=β∗=0.定理 2 的第一部分表明,在期望意义下,梯度序列 g t ( β t ; x ) g_t(\boldsymbol{\beta}_t ; \boldsymbol{x}) gt(βt;x) 不可能始终保持远离零,尽管其极限可能不存在。第二部分说明,如果确实存在某个固定点 β ∗ \boldsymbol{\beta}^* β∗ 使得 g ( β , β ∗ ; x ) = 0 g(\boldsymbol{\beta}^, \boldsymbol{\beta}^* ; \boldsymbol{x})=\mathbf{0} g(β,β∗;x)=0,那么该点同时也是似然函数的一个平稳点。
最后,我们指出,该方法可以很容易地通过 mini-batch 策略扩展到大规模数据集,并且其收敛性依然成立。在 (10) 中,随机梯度是针对单个 x \boldsymbol{x} x 定义的。对于大规模数据集 X 1 , ... , X n \boldsymbol{X}1, \ldots, \boldsymbol{X}n X1,...,Xn,我们可以随机选择一个 mini-batch X i ( 1 ) , ... , X i ( m ) \boldsymbol{X}{i(1)}, \ldots, \boldsymbol{X}{i(m)} Xi(1),...,Xi(m),其中 m m m 为 mini-batch 的大小, ( i ( 1 ) , ... , i ( m ) ) T (i(1), \ldots, i(m))^{\mathrm{T}} (i(1),...,i(m))T 是 ( 1 , ... , n ) T (1, \ldots, n)^{\mathrm{T}} (1,...,n)T 的一个随机子样本。定义 mini-batch 随机梯度为 g ~ m i n i = m − 1 ∑ j = 1 m g ~ ( β ; X i ( j ) , W t ( j ) ) , \tilde{g}{\mathrm{mini}}=m^{-1} \sum{j=1}^m \tilde{g}\left(\boldsymbol{\beta} ; \boldsymbol{X}{i(j)}, \boldsymbol{W}{t(j)}\right), g~mini=m−1j=1∑mg~(β;Xi(j),Wt(j)),其中 W t ( j ) \boldsymbol{W}{t(j)} Wt(j) 表示第 j j j 个独立的 Langevin 序列副本。可以看出, g ~ mini \tilde{g}{\text{mini}} g~mini 与单个 x \boldsymbol{x} x 的 g ~ \tilde{g} g~ 具有相同的期望,而方差仅缩放了一个常数因子。因此,推论 1 对 g ~ mini \tilde{g}_{\text{mini}} g~mini 依然成立,只需调整相应常数,从而保证算法整体的收敛性。