【课堂笔记】定理:样本越多,测量的经验损失越接近真实损失

定理描述

给定一个模型 f : X → Y f:X \to Y f:X→Y,设数据分布 D \mathcal{D} D定义在 X × Y X \times Y X×Y,表示数据真实分布 ,且假设训练集和测试集的样本均从 D \mathcal{D} D中独立同分布(i.i.d)抽取。

损失函数 为 l : Y × Y → R l:Y \times Y \to \mathbb{R} l:Y×Y→R,假设 l l l是有界的, ∀ y , y ^ , a ≤ l ( y , y ^ ) ≤ b \forall y, \hat{y},a \le l(y, \hat{y}) \le b ∀y,y^,a≤l(y,y^)≤b

模型的期望风险 定义为: L D ( f ) = E ( x , y ) ∼ D [ l ( f ( x ) , y ) ] L_{\mathcal{D}}(f) = \mathbb{E}_{(x,y) \sim \mathcal{D}}[l(f(x),y)] LD(f)=E(x,y)∼D[l(f(x),y)],是模型泛化能力的理论指标

模型的经验分险 定义为: L S t e s t = 1 ∣ S t e s t ∣ ∑ ( x , y ) ∈ S t e s t l ( f ( x ) , y ) L_{S_{test}}=\frac{1}{|S_{test}|}\underset{(x,y) \in S_{test}}{\sum}l(f(x),y) LStest=∣Stest∣1(x,y)∈Stest∑l(f(x),y),是模型在测试集上平均损失,用于估计 L D ( f ) L_{\mathcal{D}}(f) LD(f)

给定置信参数 δ ∈ ( 0 , 1 ) \delta \in (0, 1) δ∈(0,1)

有以下不等式成立:

Pr ⁡ [ ∣ L D ( f ) − L S test ( f ) ∣ ≥ ( b − a ) 2 ln ⁡ ( 2 / δ ) 2 ∣ S test ∣ ] ≤ δ \Pr\left[ \left| L_{\mathcal{D}}(f) - L_{S_{\text{test}}}(f) \right| \geq \sqrt{\frac{(b - a)^2 \ln(2/\delta)}{2 |S_{\text{test}}|}} \right] \leq \delta Pr[∣LD(f)−LStest(f)∣≥2∣Stest∣(b−a)2ln(2/δ) ]≤δ

含义

定理提供了一个概率上界,保证模型 f f f的真实风险 L D ( f ) L_{\mathcal{D}}(f) LD(f)和测试集经验风险 L S t e s t ( f ) L_{S_{test}}(f) LStest(f)之间的差不超过某个阈值的概率至少为 1 − δ 1 - \delta 1−δ

界限随着测试集大小 ∣ S t e s t ∣ |S_{test}| ∣Stest∣的增加而减小(分母变大),表明更多测试数据能更准确地估计真实风险。

界限随着损失函数范围 b − a b-a b−a的增加而增大,反映了损失变异性对泛化误差的影响。

界限随着置信参数 δ \delta δ的减小而增大(因为 l n ( 2 / δ ) ln(2/\delta) ln(2/δ)增大),反映了更高置信度需要更宽松的界。

证明

令 Z i = l ( f ( x i ) , y i ) Z_i = l(f(x_i),y_i) Zi=l(f(xi),yi),其中 ( x i , y i ) ∈ S t e s t (x_i,y_i) \in S_{test} (xi,yi)∈Stest, i = 1 , 2 , . . . , m , m = ∣ S t e s t ∣ i=1,2,...,m,m=|S_{test}| i=1,2,...,m,m=∣Stest∣

由于 ( x i , y i ) ∼ D (x_i,y_i) \sim \mathcal{D} (xi,yi)∼D, Z i Z_i Zi是独立同分布 的随机变量,且由假设, Z i ∈ [ a , b ] Z_i \in [a,b] Zi∈[a,b]。于是:

E [ Z i ] = E ( x , y ) ∼ D [ l ( f ( x ) , y ) ] = L D ( f ) \mathbb{E}[Z_i]=\mathbb{E}{(x,y) \sim \mathcal{D}}[l(f(x),y)]=L{\mathcal{D}}(f) E[Zi]=E(x,y)∼D[l(f(x),y)]=LD(f)

经验分险为:

L S t e s t ( f ) = 1 m ∑ m i = 1 Z i L_{S_{test}}(f)=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}Z_i LStest(f)=m1i=1∑mZi

引入霍夫丁不等式,它表面对于 m m m个独立随机变量 Z 1 , . . . , Z m Z_1, ..., Z_m Z1,...,Zm,每个 Z i ∈ [ a , b ] Z_i \in [a,b] Zi∈[a,b],有:

Pr ⁡ [ ∣ 1 m ∑ i = 1 m Z i − E [ Z i ] ∣ ≥ ϵ ] ≤ 2 exp ⁡ ( − 2 m ϵ 2 ( b − a ) 2 ) \Pr\left[ \left| \frac{1}{m} \sum_{i=1}^m Z_i - \mathbb{E}[Z_i] \right| \geq \epsilon \right] \leq 2 \exp\left( -\frac{2m\epsilon^2}{(b - a)^2} \right) Pr[ m1∑i=1mZi−E[Zi] ≥ϵ]≤2exp(−(b−a)22mϵ2)

代入后则有:

Pr ⁡ [ ∣ L S test ( f ) − L D ( f ) ∣ ≥ ϵ ] ≤ 2 exp ⁡ ( − 2 m ϵ 2 ( b − a ) 2 ) \Pr\left[ \left| L_{S_{\text{test}}}(f) - L_{\mathcal{D}}(f) \right| \geq \epsilon \right] \leq 2 \exp\left( -\frac{2m\epsilon^2}{(b - a)^2} \right) Pr[∣LStest(f)−LD(f)∣≥ϵ]≤2exp(−(b−a)22mϵ2)

确定一个特定的 ϵ \epsilon ϵ,令:

2 e x p ( − 2 m ϵ 2 ( b − a ) 2 ) = δ 2 2exp(-\frac{2m\epsilon^2}{(b-a)^2})=\frac{\delta}{2} 2exp(−(b−a)22mϵ2)=2δ
ϵ = ( b − a ) 2 l n ( 2 / δ ) 2 m = ( b − a ) 2 l n ( 2 / δ ) 2 ∣ S t e s t ∣ \epsilon=\sqrt{\frac{(b-a)^2ln(2/\delta)}{2m}}=\sqrt{\frac{(b-a)^2ln(2/\delta)}{2|S_{test}|}} ϵ=2m(b−a)2ln(2/δ) =2∣Stest∣(b−a)2ln(2/δ)

最终得到:

Pr ⁡ [ ∣ L D ( f ) − L S test ( f ) ∣ ≥ ( b − a ) 2 ln ⁡ ( 2 / δ ) 2 ∣ S test ∣ ] ≤ δ \Pr\left[ \left| L_{\mathcal{D}}(f) - L_{S_{\text{test}}}(f) \right| \geq \sqrt{\frac{(b - a)^2 \ln(2/\delta)}{2 |S_{\text{test}}|}} \right] \leq \delta Pr[∣LD(f)−LStest(f)∣≥2∣Stest∣(b−a)2ln(2/δ) ]≤δ

相关推荐
song_ly00140 分钟前
深入理解软件测试覆盖率:从概念到实践
笔记·学习·测试
DIY机器人工房1 小时前
[6-2] 定时器定时中断&定时器外部时钟 江协科技学习笔记(41个知识点)
笔记·stm32·单片机·学习·江协科技
IT古董1 小时前
【漫话机器学习系列】249.Word2Vec自然语言训练模型
机器学习·自然语言处理·word2vec
白光白光2 小时前
大语言模型训练的两个阶段
人工智能·机器学习·语言模型
BioRunYiXue3 小时前
一文了解氨基酸的分类、代谢和应用
人工智能·深度学习·算法·机器学习·分类·数据挖掘·代谢组学
DanB243 小时前
Java笔记4
java·开发语言·笔记
IT古董4 小时前
【漫话机器学习系列】255.独立同分布(Independent and Identically Distributed,简称 IID)
人工智能·机器学习
fytianlan4 小时前
机器学习 day6 -线性回归练习
人工智能·机器学习·线性回归
UpUpUp……4 小时前
Linux--JsonCpp
linux·运维·服务器·c++·笔记·json
qq_5982117574 小时前
Unity.UGUI DrawCall合批笔记
笔记·unity·游戏引擎