【课堂笔记】定理:样本越多,测量的经验损失越接近真实损失

定理描述

给定一个模型 f : X → Y f:X \to Y f:X→Y,设数据分布 D \mathcal{D} D定义在 X × Y X \times Y X×Y,表示数据真实分布 ,且假设训练集和测试集的样本均从 D \mathcal{D} D中独立同分布(i.i.d)抽取。

损失函数 为 l : Y × Y → R l:Y \times Y \to \mathbb{R} l:Y×Y→R,假设 l l l是有界的, ∀ y , y ^ , a ≤ l ( y , y ^ ) ≤ b \forall y, \hat{y},a \le l(y, \hat{y}) \le b ∀y,y^,a≤l(y,y^)≤b

模型的期望风险 定义为: L D ( f ) = E ( x , y ) ∼ D [ l ( f ( x ) , y ) ] L_{\mathcal{D}}(f) = \mathbb{E}_{(x,y) \sim \mathcal{D}}[l(f(x),y)] LD(f)=E(x,y)∼D[l(f(x),y)],是模型泛化能力的理论指标

模型的经验分险 定义为: L S t e s t = 1 ∣ S t e s t ∣ ∑ ( x , y ) ∈ S t e s t l ( f ( x ) , y ) L_{S_{test}}=\frac{1}{|S_{test}|}\underset{(x,y) \in S_{test}}{\sum}l(f(x),y) LStest=∣Stest∣1(x,y)∈Stest∑l(f(x),y),是模型在测试集上平均损失,用于估计 L D ( f ) L_{\mathcal{D}}(f) LD(f)

给定置信参数 δ ∈ ( 0 , 1 ) \delta \in (0, 1) δ∈(0,1)

有以下不等式成立:

Pr ⁡ [ ∣ L D ( f ) − L S test ( f ) ∣ ≥ ( b − a ) 2 ln ⁡ ( 2 / δ ) 2 ∣ S test ∣ ] ≤ δ \Pr\left[ \left| L_{\mathcal{D}}(f) - L_{S_{\text{test}}}(f) \right| \geq \sqrt{\frac{(b - a)^2 \ln(2/\delta)}{2 |S_{\text{test}}|}} \right] \leq \delta Pr[∣LD(f)−LStest(f)∣≥2∣Stest∣(b−a)2ln(2/δ) ]≤δ

含义

定理提供了一个概率上界,保证模型 f f f的真实风险 L D ( f ) L_{\mathcal{D}}(f) LD(f)和测试集经验风险 L S t e s t ( f ) L_{S_{test}}(f) LStest(f)之间的差不超过某个阈值的概率至少为 1 − δ 1 - \delta 1−δ

界限随着测试集大小 ∣ S t e s t ∣ |S_{test}| ∣Stest∣的增加而减小(分母变大),表明更多测试数据能更准确地估计真实风险。

界限随着损失函数范围 b − a b-a b−a的增加而增大,反映了损失变异性对泛化误差的影响。

界限随着置信参数 δ \delta δ的减小而增大(因为 l n ( 2 / δ ) ln(2/\delta) ln(2/δ)增大),反映了更高置信度需要更宽松的界。

证明

令 Z i = l ( f ( x i ) , y i ) Z_i = l(f(x_i),y_i) Zi=l(f(xi),yi),其中 ( x i , y i ) ∈ S t e s t (x_i,y_i) \in S_{test} (xi,yi)∈Stest, i = 1 , 2 , . . . , m , m = ∣ S t e s t ∣ i=1,2,...,m,m=|S_{test}| i=1,2,...,m,m=∣Stest∣

由于 ( x i , y i ) ∼ D (x_i,y_i) \sim \mathcal{D} (xi,yi)∼D, Z i Z_i Zi是独立同分布 的随机变量,且由假设, Z i ∈ [ a , b ] Z_i \in [a,b] Zi∈[a,b]。于是:

E [ Z i ] = E ( x , y ) ∼ D [ l ( f ( x ) , y ) ] = L D ( f ) \mathbb{E}[Z_i]=\mathbb{E}{(x,y) \sim \mathcal{D}}[l(f(x),y)]=L{\mathcal{D}}(f) E[Zi]=E(x,y)∼D[l(f(x),y)]=LD(f)

经验分险为:

L S t e s t ( f ) = 1 m ∑ m i = 1 Z i L_{S_{test}}(f)=\frac{1}{m}\underset{i=1}{\overset{m}{\sum}}Z_i LStest(f)=m1i=1∑mZi

引入霍夫丁不等式,它表面对于 m m m个独立随机变量 Z 1 , . . . , Z m Z_1, ..., Z_m Z1,...,Zm,每个 Z i ∈ [ a , b ] Z_i \in [a,b] Zi∈[a,b],有:

Pr ⁡ [ ∣ 1 m ∑ i = 1 m Z i − E [ Z i ] ∣ ≥ ϵ ] ≤ 2 exp ⁡ ( − 2 m ϵ 2 ( b − a ) 2 ) \Pr\left[ \left| \frac{1}{m} \sum_{i=1}^m Z_i - \mathbb{E}[Z_i] \right| \geq \epsilon \right] \leq 2 \exp\left( -\frac{2m\epsilon^2}{(b - a)^2} \right) Pr[ m1∑i=1mZi−E[Zi] ≥ϵ]≤2exp(−(b−a)22mϵ2)

代入后则有:

Pr ⁡ [ ∣ L S test ( f ) − L D ( f ) ∣ ≥ ϵ ] ≤ 2 exp ⁡ ( − 2 m ϵ 2 ( b − a ) 2 ) \Pr\left[ \left| L_{S_{\text{test}}}(f) - L_{\mathcal{D}}(f) \right| \geq \epsilon \right] \leq 2 \exp\left( -\frac{2m\epsilon^2}{(b - a)^2} \right) Pr[∣LStest(f)−LD(f)∣≥ϵ]≤2exp(−(b−a)22mϵ2)

确定一个特定的 ϵ \epsilon ϵ,令:

2 e x p ( − 2 m ϵ 2 ( b − a ) 2 ) = δ 2 2exp(-\frac{2m\epsilon^2}{(b-a)^2})=\frac{\delta}{2} 2exp(−(b−a)22mϵ2)=2δ
ϵ = ( b − a ) 2 l n ( 2 / δ ) 2 m = ( b − a ) 2 l n ( 2 / δ ) 2 ∣ S t e s t ∣ \epsilon=\sqrt{\frac{(b-a)^2ln(2/\delta)}{2m}}=\sqrt{\frac{(b-a)^2ln(2/\delta)}{2|S_{test}|}} ϵ=2m(b−a)2ln(2/δ) =2∣Stest∣(b−a)2ln(2/δ)

最终得到:

Pr ⁡ [ ∣ L D ( f ) − L S test ( f ) ∣ ≥ ( b − a ) 2 ln ⁡ ( 2 / δ ) 2 ∣ S test ∣ ] ≤ δ \Pr\left[ \left| L_{\mathcal{D}}(f) - L_{S_{\text{test}}}(f) \right| \geq \sqrt{\frac{(b - a)^2 \ln(2/\delta)}{2 |S_{\text{test}}|}} \right] \leq \delta Pr[∣LD(f)−LStest(f)∣≥2∣Stest∣(b−a)2ln(2/δ) ]≤δ

相关推荐
Allen_LVyingbo35 分钟前
数智读书笔记系列035《未来医疗:医疗4.0引领第四次医疗产业变革》
人工智能·经验分享·笔记·健康医疗
岑梓铭43 分钟前
考研408《计算机组成原理》复习笔记,第三章(3)——多模块存储器
笔记·考研·408·计算机组成原理
菜菜why1 小时前
MSPM0G3507学习笔记(一) 重置版:适配逐飞库的ti板环境配置
笔记·学习·电赛·嵌入式软件·mspm0
c7691 小时前
【文献笔记】Automatic Chain of Thought Prompting in Large Language Models
人工智能·笔记·语言模型·论文笔记
Blossom.1182 小时前
机器学习在智能供应链中的应用:需求预测与物流优化
人工智能·深度学习·神经网络·机器学习·计算机视觉·机器人·语音识别
X_StarX2 小时前
【Unity笔记01】基于单例模式的简单UI框架
笔记·ui·unity·单例模式·游戏引擎·游戏开发·大学生
葫三生3 小时前
如何评价《论三生原理》在科技界的地位?
人工智能·算法·机器学习·数学建模·量子计算
智者知已应修善业4 小时前
【51单片机用数码管显示流水灯的种类是按钮控制数码管加一和流水灯】2022-6-14
c语言·经验分享·笔记·单片机·嵌入式硬件·51单片机
孞㐑¥7 小时前
Linux之Socket 编程 UDP
linux·服务器·c++·经验分享·笔记·网络协议·udp
IT古董8 小时前
【第二章:机器学习与神经网络概述】03.类算法理论与实践-(3)决策树分类器
神经网络·算法·机器学习