机器学习——第十二章计算学习理论

1 基础知识

该理论研究的是关于通过计算来进行学习的理论，目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据法分析结果指导算法设计。

给定样例集D，假设 χ \chi χ中的所有样本服从一个隐含未知的分布 T T T,D中所有样本都是独立地从这个分布上采样而得。

令h为 χ 到 y \chi到y χ到y的一个映射，泛化误差为
E ( h ; T ) = P x ∼ T ( h ( x ) ≠ y ) E(h;T)=P_{x\sim T}(h(x)\ne y) E(h;T)=Px∼T(h(x)=y)

h在D上的经验误差为
E ~ ( h ; T ) = 1 m ∑ i = 1 m ∥ ( h ( x i ) ≠ y i ) \tilde E(h;T)=\frac{1}{m}\sum_{i=1}^{m}\parallel (h(x_i)\ne y_i) E~(h;T)=m1∑i=1m∥(h(xi)=yi)

由于D是T的独立同分布采样，因此h的经验误差的期望等于其泛化误差。

几个常用不等式：

jesen不等式：对任意凸函数 f ( x ) f(x) f(x)，有
f ( E ( x ) ) ≤ E ( f ( x ) ) f(E(x))\le E(f(x)) f(E(x))≤E(f(x))

Hoeffding 不等式：若 x 1 , x 2 , ... , x m x_1,x_2,\ldots,x_m x1,x2,...,xm为 m m m个独立随机变

量，且满足 0 ⩽ x i ⩽ 1 0\leqslant x_i\leqslant1 0⩽xi⩽1,则对任意 ϵ > 0 \epsilon>0 ϵ>0,有

P ( 1 m ∑ i = 1 m x i − 1 m ∑ i = 1 m E ( x i ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 m ϵ 2 ) , P ( ∣ 1 m ∑ i = 1 m x i − 1 m ∑ i = 1 m E ( x i ) ∣ ⩾ ϵ ) ⩽ 2 exp ⁡ ( − 2 m ϵ 2 ) . P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2})\:,\\P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2})\:. P(m1i=1∑mxi−m1i=1∑mE(xi)⩾ϵ)⩽exp(−2mϵ2),P( m1i=1∑mxi−m1i=1∑mE(xi) ⩾ϵ)⩽2exp(−2mϵ2).

McDiarmid 不等式：若 x 1 , x 2 , ... , x m x_1,x_2,\ldots,x_m x1,x2,...,xm为 m m m个独立随

机变量，且对任意 1 ⩽ i ⩽ m 1\leqslant i\leqslant m 1⩽i⩽m,函数 f f f满足
sup ⁡ x 1 , ... , x m , x i ′ ∣ f ( x 1 , ... , x m ) − f ( x 1 , ... , x i − 1 , x i ′ , x i + 1 , ... , x m ) ∣ ⩽ c i , \sup_{x_{1},\ldots,x_{m},\:x_{i}^{\prime}}|f(x_{1},\ldots,x_{m})-f(x_{1},\ldots,x_{i-1},x_{i}^{\prime},x_{i+1},\ldots,x_{m})|\leqslant c_{i}\:, x1,...,xm,xi′sup∣f(x1,...,xm)−f(x1,...,xi−1,xi′,xi+1,...,xm)∣⩽ci,

则对任意 ϵ > 0 \epsilon>0 ϵ>0,有

P ( f ( x 1 , ... , x m ) − E ( f ( x 1 , ... , x m ) ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 ϵ 2 ∑ i c i 2 ) , P ( ∣ f ( x 1 , ... , x m ) − E ( f ( x 1 , ... , x m ) ) ∣ ⩾ ϵ ) ⩽ 2 exp ⁡ ( − 2 ϵ 2 ∑ i c i 2 ) . P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\:,\\P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\:. P(f(x1,...,xm)−E(f(x1,...,xm))⩾ϵ)⩽exp(∑ici2−2ϵ2),P(∣f(x1,...,xm)−E(f(x1,...,xm))∣⩾ϵ)⩽2exp(∑ici2−2ϵ2).

2 PAC学习

令c表示概念，是从样本空间 x 到标记空间 y 的标记 x到标记空间y的标记 x到标记空间y的标记，若对任何样例 ( x , y ) (x,y) (x,y)，有 c ( x ) = y c(x)=y c(x)=y成立，称c为目标概念，所有我没希望学得的目标概念所构成的集合称为概念类，用符号 C C C表示。

给定学习算法，它所考虑的所有可能概念的集合称为假设空间，用符号H表示。学习算法会把自认为可能的目标概念击中起来构成H，称为假设，假设h也是从样本空间到标记空间的映射。

可分的（一致的）：若目标概念 c ∈ H c\in H c∈H，则H中存在假设能将所有示例按与真实标记一致的方式完全分开。

不可分的（不一致的）：若目标概念 c ∉ H c\notin H c∈/H，则H中不存在假设能将所有示例完全正确分开。

希望比较大的概率学得误差满足预设上限的模型。

令 δ \delta δ表示置信度，定义

PAC辨识：

对0 < ϵ , δ < 1 <\epsilon ,\delta<1 <ϵ,δ<1,所有 c ∈ C c\in C c∈C和分布D，若存在学习算法，其输出假设 h ∈ H h\in H h∈H满足 P ( E ( h ) ≤ ϵ ) ≥ 1 − δ P(E(h)\le \epsilon )\ge 1-\delta P(E(h)≤ϵ)≥1−δ

则称学习算法能从假设空间H中PAC辨识概念类C。

PAC可学习：

令 m m m表示从分布 D \mathcal{D} D中独立同分布采样得到的样例数目 , 0 < ϵ , δ < 1 ,0<\epsilon,\delta<1 ,0<ϵ,δ<1,对所有分布 D \mathcal{D} D,若存在学习算法 S \mathfrak{S} S 和多项式函数 poly ( ⋅ , ⋅ , ⋅ , ⋅ ) (\cdot,\cdot,\cdot,\cdot) (⋅,⋅,⋅,⋅),使得对于任何 m ⩾ m\geqslant m⩾poly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ,size ( x ) (\boldsymbol{x}) (x),size ( c ) ) , S (c)),\mathfrak{S} (c)),S能从假设空间 H \mathcal{H} H中 PAC 辨识概念类 C \mathcal{C} C,则称概念类 C \mathcal{C} C对假设空间 H \mathcal{H} H而言是 PAC 可学习的，有时也简称概念类 C \mathcal{C} C 是 PAC 可学习的。

PAC 学习算法：

若学习算法 S \mathfrak{S} S使概念类 C \mathcal{C} C为 PAC 可学习的，且 S \mathfrak{S} S的运行时间也是多项式函数 poly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ, size ( x ) (\boldsymbol{x}) (x),size ( c ) ) (c)) (c)),则称概念类 C \mathcal{C} C是高效 PAC 可学习 (efficiently PAC learnable) 的，称 S \mathfrak{S} S为概念类 C \mathcal{C} C的 PAC 学习算法。

样本复杂度 (Sample Complexity):满足 PAC 学习算法 S \mathfrak{S} S 所需的 m ⩾ m\geqslant m⩾ poly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ,size ( x ) (\boldsymbol{x}) (x),size ( c ) ) (c)) (c))中最小的 m m m,称为学习算法 S \mathfrak{S} S的样本复杂度。

PAC学习中的一个关键因素是假设空间的复杂度，假设空间越大，其包含任意目标概念的可能性越大，从中找到某个具体目标概念的难度也越大。假设空间分为有限假设空间和无限假设空间。

3 有限假设空间

3.1 可分情形

策略：对于训练集D，只需保留与D一致的假设，提出与D不一致的假设。若训练集D足够大，可不断借助D中的样例剔除不一致的假设，直到仅剩一个假设为止，这个假设就是目标概念c。由于训练集规模有限，假设空间可能存在不止一个与D一致的等效假设，对于这些等效假设，无法根据D对它们的优劣进一步区分。

为解决需要多少样例才能学得目标概念c的有效近似。

对分布D上随机采样而得得任何样例 ( x , y ) (x,y) (x,y)，有
P ( h ( x ) = y ) < 1 − ϵ P(h(x)=y)<1-\epsilon P(h(x)=y)<1−ϵ

由于 D D D包含 m m m个从 D \mathcal{D} D独立同分布采样而得的样例，因此， h h h与 D D D表现一

致的概率为

P ( ( h ( x 1 ) = y 1 ) ∧ ... ∧ ( h ( x m ) = y m ) ) = ( 1 − P ( h ( x ) ≠ y ) ) m P\left(\left(h(\boldsymbol{x}_1)=y_1\right)\wedge\ldots\wedge\left(h(\boldsymbol{x}_m)=y_m\right)\right)=\left(1-P\left(h\left(\boldsymbol{x}\right)\neq y\right)\right)^m P((h(x1)=y1)∧...∧(h(xm)=ym))=(1−P(h(x)=y))m

< ( 1 − ϵ ) m <(1-\epsilon)^m <(1−ϵ)m

仅需保证泛化误差大于 ϵ \epsilon ϵ,且在训练集上表现完美的所有假设出现概率之和不大于 δ \delta δ即可：
P ( h ∈ H : E ( h ) > ϵ ∧ E ^ ( h ) = 0 ) < ∣ H ∣ ( 1 − ϵ ) m < ∣ H ∣ e − m ϵ , \begin{aligned}P(h\in\mathcal{H}:E(h)>\epsilon\wedge\widehat{E}(h)=0)&<|\mathcal{H}|(1-\epsilon)^{m}\\&<|\mathcal{H}|e^{-m\epsilon}\:,\end{aligned} P(h∈H:E(h)>ϵ∧E (h)=0)<∣H∣(1−ϵ)m<∣H∣e−mϵ,

∣ H ∣ e − m ϵ ⩽ δ | \mathcal{H} | e^{- m\epsilon }\leqslant \delta ∣H∣e−mϵ⩽δ ,

可得
m ⩾ 1 ϵ ( ln ⁡ ∣ H ∣ + ln ⁡ 1 δ ) . m\geqslant\frac{1}{\epsilon}\big(\ln|\mathcal{H}|+\ln\frac{1}{\delta}\big). m⩾ϵ1(ln∣H∣+lnδ1).

3.2 不可分情形

目标概念c往往不存在于假设空间中，对于任何h，假设空间中得任意一个假设都会在训练集上出现错误。

若训练集 D D D包含 m m m个从分布 D \mathcal{D} D上独立同分布采样而得的样例 , 0 < ϵ < 1 ,0<\epsilon<1 ,0<ϵ<1,则对任意 h ∈ H h\in\mathcal{H} h∈H,有
P ( E ^ ( h ) − E ( h ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 m ϵ 2 ) , P\big(\widehat{E}(h)-E(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^2)\:, P(E (h)−E(h)⩾ϵ)⩽exp(−2mϵ2),

P ( E ( h ) − E ^ ( h ) ⩾ ϵ ) ⩽ exp ⁡ ( − 2 m ϵ 2 ) , P\big(E(h)-\widehat{E}(h)\geqslant\epsilon\big)\leqslant\exp(-2m\epsilon^2)\:, P(E(h)−E (h)⩾ϵ)⩽exp(−2mϵ2),

P ( ∣ E ( h ) − E ^ ( h ) ∣ ⩾ ϵ ) ⩽ 2 exp ⁡ ( − 2 m ϵ 2 ) . P\Big(\Big|E(h)-\widehat{E}(h)\Big|\geqslant\epsilon\Big)\leqslant2\exp(-2m\epsilon^2)\:. P( E(h)−E (h) ⩾ϵ)⩽2exp(−2mϵ2).

若训练集 D D D包含 m m m个从分布 D \mathcal{D} D上独立同分布采样而得的样

例 , 0 < ϵ < 1 ,0<\epsilon<1 ,0<ϵ<1,则对任意 h ∈ H h\in\mathcal{H} h∈H,式(12.18)以至少 1 − δ 1-\delta 1−δ的概率成立：
E ^ ( h ) − ln ⁡ ( 2 / δ ) 2 m ⩽ E ( h ) ⩽ E ^ ( h ) + ln ⁡ ( 2 / δ ) 2 m . \widehat{E}(h)-\sqrt{\frac{\ln{(2/\delta)}}{2m}}\leqslant E(h)\leqslant\widehat{E}(h)+\sqrt{\frac{\ln{(2/\delta)}}{2m}}\:. E (h)−2mln(2/δ) ⩽E(h)⩽E (h)+2mln(2/δ) .

样例数目 m m m较大时 , h ,h ,h的经验误差是其泛化误差很好的近似。对于有限假设空间 H \mathcal{H} H,我们有

若 H \mathcal{H} H为有限假设空间， 0 < δ < 1 0<\delta<1 0<δ<1,则对任意 h ∈ H h\in\mathcal{H} h∈H,有
P ( ∣ E ( h ) − E ^ ( h ) ∣ ⩽ ln ⁡ ∣ H ∣ + ln ⁡ ( 2 / δ ) 2 m ) ⩾ 1 − δ . P\Big(\Big|E(h)-\widehat{E}(h)\Big|\leqslant\sqrt{\frac{\ln|\mathcal{H}|+\ln(2/\delta)}{2m}}\Big)\geqslant1-\delta\:. P( E(h)−E (h) ⩽2mln∣H∣+ln(2/δ) )⩾1−δ.

当假设空间给定时，其中必存在一个泛化误差最小得假设，找到此假设得近似也是一个较好得目标，将此目标将PAC学习推广到目标概念不属于假设空间得情况，称为不可知学习。

不可知PAC可学习：令 m m m表示从分布 D \mathcal{D} D中独立同分布采样得到的样例数目， 0 < ϵ , δ < 1 0<\epsilon,\delta<1 0<ϵ,δ<1,对所有分布 D \mathcal{D} D,若存在学习算法 £ 和多项式函数 poly ( ⋅ , ⋅ , ⋅ , ⋅ ) (\cdot,\cdot,\cdot,\cdot) (⋅,⋅,⋅,⋅),使得对于任何 m ⩾ m\geqslant m⩾poly ( 1 / ϵ , 1 / δ (1/\epsilon,1/\delta (1/ϵ,1/δ,size ( x ) (\boldsymbol{x}) (x),size ( c ) ) , S (c)),\mathfrak{S} (c)),S 能从假设空间 H \mathcal{H} H 中输出满足式的

假设 h : h: h:

P ( E ( h ) − min ⁡ h ′ ∈ H E ( h ′ ) ⩽ ϵ ) ⩾ 1 − δ , P\big(E(h)-\min_{h'\in\mathcal{H}}E(h')\leqslant\epsilon\big)\geqslant1-\delta\:, P(E(h)−h′∈HminE(h′)⩽ϵ)⩾1−δ,

则称假设空间是不可知 PAC 可学习的。

4 VC维

现实学习任务所面临得通常是无限假设空间，对此种情形得可学习性进行研究，需度量假设空间得复杂性。最常见得办法是考虑假设空间得VC维。

给定假设空间H和示例集D，H中每个假设h都能对D中示例赋予标记。

增长函数：表示假设空间对m个示例所能赋予标记得最大可能结果数。可能结果是越大，假设空间得表达能力越强，对学习任务得适应能力也越强。

Π H ( m ) = max ⁡ { x 1 , ... , x m } ⊆ X ∣ { ( h ( x 1 ) , ... , h ( x m ) ) ∣ h ∈ H ∣ \Pi_{\mathcal{H}}(m)=\max_{\{\boldsymbol{x}{1},\ldots,\boldsymbol{x}{m}\}\subseteq\mathcal{X}}\left|\left\{\left(h\left(\boldsymbol{x}{1}\right),\ldots,h\left(\boldsymbol{x}{m}\right)\right)\right|h\in\mathcal{H}\right| ΠH(m)={x1,...,xm}⊆Xmax∣{(h(x1),...,h(xm))∣h∈H∣

可使用增长函数来估计经验误差与泛化误差之间的关系：

对假设空间 H , m ∈ N , 0 < ϵ < 1 \mathcal{H},m\in\mathbb{N},0<\epsilon<1 H,m∈N,0<ϵ<1和任意 h ∈ H h\in\mathcal{H} h∈H有 P ( ∣ E ( h ) − E ^ ( h ) ∣ > ϵ ) ⩽ 4 Π H ( 2 m ) exp ⁡ ( − m ϵ 2 8 ) . P\big(\big|E(h)-\widehat{E}(h)\big|>\epsilon\big)\leqslant4\Pi_{\mathcal H}(2m)\exp\big(-\frac{m\epsilon^2}{8}\big). P( E(h)−E (h) >ϵ)⩽4ΠH(2m)exp(−8mϵ2).

对二分类问题来说，假设空间中的假设对D中示例赋予标记的每种可能结果称为对D的一种对分。

定义VC维：

假设空间 H \mathcal{H} H的 VC 维是能被 H \mathcal{H} H打散的最大示例集的大小，即
V C ( H ) = max ⁡ { m : Π H ( m ) = 2 m } . \mathrm{VC}(\mathcal{H})=\max\{m:\Pi_{\mathcal{H}}(m)=2^m\}\:. VC(H)=max{m:ΠH(m)=2m}.

VC维等于d表明存在大小为d的示例集能被假设空间打散。

若存在大小为d的示例集能被 H \mathcal{H} H打散，但不存在任何大小为d+1的示例集能被 H \mathcal{H} H打散，则 H \mathcal{H} H的VC维是d。

VC维与增长函数有密切联系

1.若假设空间 H \mathcal{H} H的VC维为d，则
Π H ( m ) ≤ ∑ i = 0 d ( m i ) \Pi_{\mathcal{H}}(m)\le\sum_{i=0}^{d}\begin{pmatrix}m \\ i \end{pmatrix} ΠH(m)≤∑i=0d(mi)

可以计算出增长函数的上界。

2.若假设空间 H \mathcal{H} H的VC维为d，则对任意整数 m ≥ d m\ge d m≥d有
Π H ( m ) ≤ ( e ∗ m d ) d \Pi_{\mathcal{H}}(m)\le(\frac{e*m}{d})^d ΠH(m)≤(de∗m)d

可由以上式子得到基于VC维的泛化误差界。

3.若假设空间 H \mathcal{H} H的 VC 维为 d d d,则对任意 m > d , 0 < δ < 1 m>d,0<\delta<1 m>d,0<δ<1和

h ∈ H h\in\mathcal{H} h∈H有
P ( E ( h ) − E ^ ( h ) ⩽ 8 d ln ⁡ 2 e m d + 8 ln ⁡ 4 δ m ) ⩾ 1 − δ . P\left(E(h)-\widehat{E}(h)\leqslant\sqrt{\frac{8d\ln\frac{2em}{d}+8\ln\frac{4}{\delta}}{m}}\right)\geqslant1-\delta\:. P E(h)−E (h)⩽m8dlnd2em+8lnδ4 ⩾1−δ.

有以下定理：任何VC维有限的假设空间 H \mathcal{H} H都是（不可知）PAC可学习的。

5 Rademacher复杂度

上一节描述的基于VC维的可学习性分析结果具有一定的普适性，但是由于没有考虑数据自身，基于VC维得到的泛化误差界通常比较松。

Rademacher复杂度是另一种刻画假设空间复杂度的途径，在一定程度上考虑了数据分布。

给定训练集D，假设h的经验误差为
E ~ ( h ) = 1 2 − 1 2 m ∑ i = 1 m y i h ( x i ) \tilde E(h)=\frac{1}{2}-\frac{1}{2m}\sum_{i=1}^{m}y_ih(x_i) E~(h)=21−2m1∑i=1myih(xi)

函数空间 F \mathcal{F} F关于 Z Z Z的经验 Rademacher 复杂度

R ^ Z ( F ) = E σ [ sup ⁡ f ∈ F 1 m ∑ i = 1 m σ i f ( z i ) ] . \widehat{R}{Z}(\mathcal{F})=\mathbb{E}{\boldsymbol{\sigma}}\Big[\sup_{f\in\mathcal{F}}\frac{1}{m}\sum_{i=1}^{m}\sigma_{i}f(\boldsymbol{z}_{i})\Big]\:. R Z(F)=Eσ[f∈Fsupm1i=1∑mσif(zi)].

经验 Rademacher 复杂度衡量了函数空间 F \mathcal{F} F与随机噪声在集合 Z Z Z中的相关性。

函数空间 F \mathcal{F} F关于 Z \mathcal{Z} Z上分布 D \mathcal{D} D的 Rademacher 复杂度
R m ( F ) = E Z ⊆ Z : ∣ Z ∣ = m [ R ^ Z ( F ) ] . R_m(\mathcal{F})=\mathbb{E}_{Z\subseteq\mathcal{Z}:|Z|=m}\Big[\widehat{R}_Z(\mathcal{F})\Big]\:. Rm(F)=EZ⊆Z:∣Z∣=m[R Z(F)].

基于 Rademacher 复杂度可得关于函数空间 F \mathcal{F} F的泛化误差界。

对实值函数空间 F : Z → [ 0 , 1 ] \mathcal{F}:\mathcal{Z}\to[0,1] F:Z→[0,1],根据分布 D \mathcal{D} D从 Z \mathcal{Z} Z中独立同分布采样得到示例集,以至少 1 − δ 1-\delta 1−δ的概率有
E [ f ( z ) ] ⩽ 1 m ∑ i = 1 m f ( z i ) + 2 R m ( F ) + ln ⁡ ( 1 / δ ) 2 m , \mathbb{E}\big[f(\boldsymbol{z})\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(\boldsymbol{z}{i})+2R{m}(\mathcal{F})+\sqrt{\frac{\ln(1/\delta)}{2m}}\:, E[f(z)]⩽m1i=1∑mf(zi)+2Rm(F)+2mln(1/δ) ,
E [ f ( z ) ] ⩽ 1 m ∑ i = 1 m f ( z i ) + 2 R ^ Z ( F ) + 3 ln ⁡ ( 2 / δ ) 2 m . \mathbb{E}\big[f(\boldsymbol{z})\big]\leqslant\frac{1}{m}\sum_{i=1}^{m}f(\boldsymbol{z}{i})+2\widehat{R}{Z}(\mathcal{F})+3\sqrt{\frac{\ln(2/\delta)}{2m}}\:. E[f(z)]⩽m1i=1∑mf(zi)+2R Z(F)+32mln(2/δ) .

对二分类问题，有以下定理（给出了基于Rademacher复杂度的泛化误差界）：

对假设空间 H : X → { − 1 , + 1 } \mathcal{H}:\mathcal{X}\to\{-1,+1\} H:X→{−1,+1},根据分布 D \mathcal{D} D从 X \mathcal{X} X中独立同分

布采样得到示例集 D = { x 1 , x 2 , ... , x m } , x i ∈ X , 0 < δ < 1 D=\{\boldsymbol x_1,\boldsymbol{x}_2,\ldots,\boldsymbol{x}_m\},\boldsymbol{x}_i\in\mathcal{X},0<\delta<1 D={x1,x2,...,xm},xi∈X,0<δ<1,对任意 h ∈ H h\in\mathcal{H} h∈H,

以至少 1 − δ 1-\delta 1−δ的概率有

E ( h ) ⩽ E ^ ( h ) + R m ( H ) + ln ⁡ ( 1 / δ ) 2 m , E ( h ) ⩽ E ^ ( h ) + R ^ D ( H ) + 3 ln ⁡ ( 2 / δ ) 2 m . E(h)\leqslant\widehat{E}(h)+R_{m}(\mathcal{H})+\sqrt{\frac{\ln(1/\delta)}{2m}}\:,\\E(h)\leqslant\widehat{E}(h)+\widehat{R}_{D}(\mathcal{H})+3\sqrt{\frac{\ln(2/\delta)}{2m}}\:. E(h)⩽E (h)+Rm(H)+2mln(1/δ) ,E(h)⩽E (h)+R D(H)+32mln(2/δ) .

可知道基于VC维的泛化误差界是分布无关，数据独立的，基于Rademacher复杂度的泛化误差界与分布有关，通常比基于VC维的泛化误差界更紧一些。

关于Rademacher复杂度与增长函数有定理如下：

假设空间的Rademacher复杂度 R m ( H ) R_m(\mathcal{H}) Rm(H)与增长函数 Π H ( m ) 满足 R m ( H ) ⩽ 2 ln ⁡ Π H ( m ) m \Pi_{\mathcal{H}}(m)\text{ 满足}\\R_{m}(\mathcal{H})\leqslant\sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}} ΠH(m) 满足Rm(H)⩽m2lnΠH(m) .

6 稳定性

希望获得与算法有关的分析结果，可以通过稳定性分析来获得结果。

稳定性考察的是算法在输入发生变化时，输出是否会随之发生较大的变化。

定义训练集的两种变化：

∙ D \ i \bullet D^{\backslash i} ∙D\i表示移除 D D D中第 i i i个样例得到的集合
D ∖ i = { z 1 , z 2 , ... , z i − 1 , z i + 1 , ... , z m } , D^{\setminus i}=\{\boldsymbol{z}1,\boldsymbol{z}2,\ldots,\boldsymbol{z}{i-1},\boldsymbol{z}{i+1},\ldots,\boldsymbol{z}_m\}, D∖i={z1,z2,...,zi−1,zi+1,...,zm},
∙ D i \bullet D^{i} ∙Di表示替换 D D D中第 i i i个样例得到的集合
D i = { z 1 , z 2 , ... , z i − 1 , z i ′ , z i + 1 , ... , z m } , D^i=\{\boldsymbol{z}_1,\boldsymbol{z}2,\ldots,\boldsymbol{z}{i-1},\boldsymbol{z}i^{\prime},\boldsymbol{z}{i+1},\ldots,\boldsymbol{z}_m\}, Di={z1,z2,...,zi−1,zi′,zi+1,...,zm},

其中 z i ′ = ( x i ′ , y i ′ ) , x i ′ \boldsymbol{z}_i^{\prime}=(\boldsymbol{x}_i^{\prime},y_i^{\prime}),\boldsymbol{x}_i^{\prime} zi′=(xi′,yi′),xi′服从分布 D \mathcal{D} D并独立于 D . D. D.

下面定义关于假设 E D \mathfrak{E}_D ED的几种损失。

泛化损失
ℓ ( L , D ) = E x ∈ X , z = ( x , y ) [ ℓ ( L D , z ) ] . \ell(\mathcal{L},\mathcal{D})=\mathbb{E}{\boldsymbol{x}\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y)}\big[\ell(\mathcal{L}{D},\boldsymbol{z})\big]\:. ℓ(L,D)=Ex∈X,z=(x,y)[ℓ(LD,z)].
经验损失

ℓ ^ ( L , D ) = 1 m ∑ i = 1 m ℓ ( L D , z i ) . \widehat{\ell}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}{D},\boldsymbol{z}{i})\:. ℓ (L,D)=m1i=1∑mℓ(LD,zi).

留一损失

ℓ l o o ( L , D ) = 1 m ∑ i = 1 m ℓ ( L D ∖ i , z i ) . \ell_{loo}(\mathcal{L},D)=\frac{1}{m}\sum_{i=1}^{m}\ell(\mathcal{L}{D\setminus i},\boldsymbol{z}{i})\:. ℓloo(L,D)=m1i=1∑mℓ(LD∖i,zi).

定义算法的均匀稳定性：

对任何 x ∈ X , z = ( x , y ) x\in\mathcal{X},\boldsymbol{z}=(\boldsymbol{x},y) x∈X,z=(x,y),若学习算法 S \mathfrak{S} S满足
∣ ℓ ( L D , z ) − ℓ ( L D ∖ i , z ) ∣ ⩽ β , i = 1 , 2 , ... , m , \begin{vmatrix}\ell(\mathfrak{L}D,\boldsymbol{z})-\ell(\mathfrak{L}{D^{\setminus i}},\boldsymbol{z})\end{vmatrix}\leqslant\beta\:,\:i=1,2,\ldots,m, ℓ(LD,z)−ℓ(LD∖i,z) ⩽β,i=1,2,...,m,

则称 S \mathfrak{S} S关于损失函数 ℓ \ell ℓ满足 β \beta β-均匀稳定性，

显然，若算法 S \mathfrak{S} S关于损失函数 ℓ \ell ℓ满足 β \beta β-均匀稳定性，则有
∣ ℓ ( L D , z ) − ℓ ( L D i , z ) ∣ ⩽ ∣ ℓ ( L D , z ) − ℓ ( L D i , z ) ∣ + ∣ ℓ ( L D i , z ) − ℓ ( L D ∖ i , z ) ∣ ⩽ 2 β , \begin{aligned}&\left|\ell(\mathcal{L}{D},\boldsymbol{z})-\ell(\mathcal{L}{D^{i}},\boldsymbol{z})\right|\\&\leqslant\left|\ell(\mathcal{L}{D},\boldsymbol{z})-\ell(\mathcal{L}{D^{i}},\boldsymbol{z})\right|+\left|\ell(\mathcal{L}{D^{i}},\boldsymbol{z})-\ell(\mathcal{L}{D^{\setminus i}},\boldsymbol{z})\right|\\&\leqslant2\beta\:,\end{aligned} ∣ℓ(LD,z)−ℓ(LDi,z)∣⩽∣ℓ(LD,z)−ℓ(LDi,z)∣+∣ℓ(LDi,z)−ℓ(LD∖i,z)∣⩽2β,

若损失函数 ℓ \ell ℓ有界,则有定理如下：

给定从分布 D \mathcal{D} D上独立同分布采样得到的大小为 m m m的示例集 D D D,若学习算法 S \mathfrak{S} S满足关于损失函数 ℓ \ell ℓ的 β \beta β-均匀稳定性，且损失函数 ℓ \ell ℓ的上界为 M , 0 < δ < 1 M,0<\delta<1 M,0<δ<1,则对任意 m ⩾ 1 m\geqslant1 m⩾1,以至少 1 − δ 1-\delta 1−δ的概率有
ℓ ( L , D ) ⩽ ℓ ^ ( L , D ) + 2 β + ( 4 m β + M ) ln ⁡ ( 1 / δ ) 2 m \ell(\mathcal{L},\mathcal{D})\leqslant\widehat{\ell}(\mathcal{L},D)+2\beta+\left(4m\beta+M\right)\sqrt{\frac{\ln(1/\delta)}{2m}} ℓ(L,D)⩽ℓ (L,D)+2β+(4mβ+M)2mln(1/δ)
ℓ ( L , D ) ⩽ ℓ l o o ( L , D ) + β + ( 4 m β + M ) ln ⁡ ( 1 / δ ) 2 m . \ell(\mathcal{L},\mathcal{D})\leqslant\ell_{loo}(\mathcal{L},D)+\beta+(4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}\:. ℓ(L,D)⩽ℓloo(L,D)+β+(4mβ+M)2mln(1/δ) .