监督学习(Supervised Learning)

监督学习(Supervised Learning)

  • [监督学习(Supervised Learning)](#监督学习(Supervised Learning))
    • [1. 假设空间与模型](#1. 假设空间与模型)
      • [1.1 模型的两种形式](#1.1 模型的两种形式)
    • [2. 策略:损失函数与风险最小化](#2. 策略:损失函数与风险最小化)
      • [2.1 损失函数(Loss Function)](#2.1 损失函数(Loss Function))
      • [2.2 风险函数(Risk Function)](#2.2 风险函数(Risk Function))
      • [2.3 风险最小化准则](#2.3 风险最小化准则)
        • [(1)经验风险最小化(Empirical Risk Minimization, ERM)](#(1)经验风险最小化(Empirical Risk Minimization, ERM))
        • [(2)结构风险最小化(Structural Risk Minimization, SRM)](#(2)结构风险最小化(Structural Risk Minimization, SRM))
      • [2.4 训练误差与测试误差](#2.4 训练误差与测试误差)
        • [(1)训练误差(Training Error)](#(1)训练误差(Training Error))
        • [(2)测试误差(Test Error)](#(2)测试误差(Test Error))
      • [2.5 过拟合与正则化实例(多项式回归)](#2.5 过拟合与正则化实例(多项式回归))
      • [2.6 过拟合(Over-Fitting)通俗定义](#2.6 过拟合(Over-Fitting)通俗定义)
    • [3. 泛化误差与泛化误差上界](#3. 泛化误差与泛化误差上界)
      • [3.1 泛化误差(Generalization Error)](#3.1 泛化误差(Generalization Error))
      • [3.2 泛化误差上界(Generalization Error Bound)](#3.2 泛化误差上界(Generalization Error Bound))
    • [4. 总结](#4. 总结)

监督学习(Supervised Learning)

监督学习其实很简单,核心就是用"带答案的数据"学规律,最终找到能精准预测新数据的模型。

它的核心方法可以总结为一个公式: 方法 = 模型 + 策略 + 算法 \boldsymbol{方法 = 模型 + 策略 + 算法} 方法=模型+策略+算法。


核心目标:找泛化能力最好的模型(简单说就是,不仅能做好"旧题",更能精准做"新题")

定模型:选一种"工具",要么是直接输出答案的决策函数(Y=f_θ(x)),要么是输出概率的概率模型(P_θ(Y|x))。

定损失:判断模型"答得对不对"的标准------分类题(比如判断猫/狗)用0-1损失(错1对0),回归题(比如预测房价)用平方损失(看预测值和真实值差多少),概率题用对数损失。

选策略

  • 样本多("练习题"够多):用经验风险最小化(ERM),直白说就是尽量让模型把现有练习题都做对。
  • 样本少("练习题"不够):加正则化,用结构风险最小化(SRM),避免模型死记硬背"旧题",保证能应对"新题"。

评性能:看两个指标------训练误差(模型对"旧题"的拟合度)和测试误差(模型对"新题"的泛化能力),重点防止"过拟合"(只会背题,不会解题)。

保泛化:记住一个小技巧:样本越多、模型越简单,预测新数据的误差就越小。

最终:选结构风险最小的模型(既会做旧题,又能精准做新题)


1. 假设空间与模型

结合前文我们知道,监督学习的核心是找到合适的模型(三要素之一),而模型的选择,首先要明确「所有可能的模型范围」------这就是假设空间(hypothesis space):简单说,它包含了我们能想到的、所有可能用来拟合数据、预测答案的条件概率分布或决策函数。

1.1 模型的两种形式

我们常见的模型,主要分为以下两种(对应假设空间里的两类核心形式),具体区别和形式如下表所示:

模型类型 基本形式 参数化形式
决策函数模型 F = { f ∣ Y = f ( x ) } \mathcal{F} = \{f \mid Y=f(x)\} F={f∣Y=f(x)} F = { f ∣ Y = f θ ( x ) , θ ∈ R n } \mathcal{F} = \{f \mid Y=f_\theta(x), \theta \in \mathbb{R}^n\} F={f∣Y=fθ(x),θ∈Rn}
条件概率模型 F = { P ∣ P ( Y ∣ x ) } \mathcal{F} = \{P \mid P(Y \mid x)\} F={P∣P(Y∣x)} F = { P ∣ P θ ( Y ∣ x ) , θ ∈ R n } \mathcal{F} = \{P \mid P_\theta(Y \mid x), \theta \in \mathbb{R}^n\} F={P∣Pθ(Y∣x),θ∈Rn}

补充2个新手必懂的小解释:

  • θ \theta θ:模型参数,就是我们训练模型时,需要不断调整的"关键参数"(比如前文说的"让模型变准的步骤",本质就是调整这个参数);
  • R n \mathbb{R}^n Rn: n n n 维参数空间,简单理解为"所有可能的参数取值范围",我们的目标就是从这个范围里,找到最适合的参数 θ \theta θ。

2. 策略:损失函数与风险最小化

结合前文,我们确定了假设空间(所有可能的模型),接下来就要明确「怎么判断哪个模型最好」------这就是监督学习的策略。策略的核心很简单:先定义一个"评判标准"(损失函数),再基于这个标准衡量模型的整体表现(风险函数),最终选出"得分最高"(风险最小)的最优模型。

2.1 损失函数(Loss Function)

损失函数就是我们的「单次评判标准」,专门衡量模型一次预测的好坏 ,记为 L ( Y , f ( x ) ) L(Y, f(x)) L(Y,f(x))(决策函数模型)或 L ( Y , P ( Y ∣ x ) ) L(Y, P(Y \mid x)) L(Y,P(Y∣x))(概率模型)。

简单说:你让模型预测一次,把预测结果和真实答案对比,用损失函数算一个"误差值",值越小,说明这一次预测越准。常见的4种损失函数,对应不同任务,新手重点记"适用场景"即可:

  1. 0-1 损失函数 (0-1 Loss Function)------ 适用于分类任务(比如判断猫/狗、垃圾类别)
    L ( Y , f ( x ) ) = { 1 , Y ≠ f ( x ) 0 , Y = f ( x ) L(Y,f(x))=\begin{cases} 1, & Y \neq f(x) \\ 0, & Y = f(x) \end{cases} L(Y,f(x))={1,0,Y=f(x)Y=f(x)

通俗解释:预测错了(Y≠f(x)),得1分(误差大);预测对了(Y=f(x)),得0分(误差小),简单直接。

  1. 平方损失函数 (Quadratic Loss Function)------ 适用于回归任务(比如预测房价、温度)
    L ( Y , f ( x ) ) = ( Y − f ( x ) ) 2 L(Y,f(x))=(Y-f(x))^2 L(Y,f(x))=(Y−f(x))2

通俗解释:用"预测值和真实值的差的平方"来算误差,差值越大,误差值越大(比如预测房价差10万,误差就是100,惩罚更明显)。

  1. 绝对损失函数 (Absolute Loss Function)------ 适用于回归任务(对极端值更宽容)
    L ( Y , f ( x ) ) = ∣ Y − f ( x ) ∣ L(Y,f(x))=|Y-f(x)| L(Y,f(x))=∣Y−f(x)∣

通俗解释:直接用"预测值和真实值的绝对值差"算误差,和平方损失比,极端值(比如预测错很多)带来的误差不会被放大。

  1. 对数损失函数 (Logarithmic Loss Function)------ 适用于概率模型(比如预测某件事发生的概率)
    L ( Y , P ( Y ∣ x ) ) = − log ⁡ P ( Y ∣ x ) L(Y,P(Y \mid x))=-\log P(Y \mid x) L(Y,P(Y∣x))=−logP(Y∣x)

通俗解释:预测的概率越接近真实结果(比如实际会发生,预测概率0.9),误差越小;越接近相反结果(比如实际会发生,预测概率0.1),误差越大。

核心结论:损失函数值越小,模型单次预测效果越好。


2.2 风险函数(Risk Function)

损失函数只能评判"单次预测",而我们需要的是「能稳定预测所有数据」的模型------这就需要风险函数,它衡量模型在所有数据(整体)上的平均预测好坏,是对模型整体表现的"综合打分"。

主要分为两种,新手重点理解"区别和用途",公式不用死记:

  1. 期望风险(Expected Risk)

    模型关于所有数据(联合分布 P ( x , y ) P(x,y) P(x,y)) 的平均损失,是理论上的"最优打分"------相当于让模型做完所有可能的题目,算出的平均误差。
    R e x p ( f ) = E P [ L ( Y , f ( x ) ) ] = ∫ X × Y L ( Y , f ( x ) ) P ( x , y ) d x d y \mathcal{R}_{exp}(f) = \mathbb{E}P[L(Y,f(x))] = \int{X \times Y} L(Y,f(x)) P(x,y)dxdy Rexp(f)=EP[L(Y,f(x))]=∫X×YL(Y,f(x))P(x,y)dxdy
    核心目标:我们最终想找的,就是期望风险最小的模型(理论上最完美的模型)。

  2. 经验风险(Empirical Risk)

    现实中,我们不可能拿到"所有数据",只能用手头的训练数据(练习题)来近似计算期望风险------这就是经验风险,它是模型关于训练数据集 的平均损失。
    R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \mathcal{R}{emp}(f) = \frac{1}{N} \sum{i=1}^N L(y_i,f(x_i)) Remp(f)=N1i=1∑NL(yi,f(xi))

补充2个新手易懂的点:

  • 当训练样本量 N N N 足够大(练习题足够多)时,经验风险会无限接近期望风险(相当于做的练习题越多,越能反映真实水平);
  • 现实中样本量往往有限,要是直接用经验风险代替期望风险,模型容易"死记硬背练习题"(过拟合),遇到新题就不会做,所以需要矫正。

2.3 风险最小化准则

明确了损失函数和风险函数,接下来就是"怎么选最优模型"------核心是"最小化风险",主要有两种准则,对应不同样本量场景,衔接前文引言,新手容易理解:

(1)经验风险最小化(Empirical Risk Minimization, ERM)

核心逻辑:认为"在训练数据上表现最好(经验风险最小)的模型,就是最优模型" ,优化目标(不用死记,理解逻辑即可):
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \min_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) f∈FminN1i=1∑NL(yi,f(xi))

  • 适用场景:训练样本量 N N N 足够大时(比如有几万、几十万条数据),此时经验风险能很好地近似期望风险;
  • 存在问题:当样本量 N N N 较小时(比如只有几十条数据),容易产生过拟合(模型死记硬背训练数据,不会应对新数据)。
(2)结构风险最小化(Structural Risk Minimization, SRM)

为了解决"过拟合"问题而提出,本质就是给模型"加约束"(正则化),不让它"死记硬背",在保证训练效果(经验风险小)的同时,让模型更简单,从而能应对新数据。

结构风险公式 (重点理解新增项的含义):
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \mathcal{R}{srm}(f) = \frac{1}{N} \sum{i=1}^N L(y_i,f(x_i)) + \lambda J(f) Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)

  • J ( f ) J(f) J(f):正则化项,简单说就是"模型复杂度的惩罚分"------模型越复杂(比如死记硬背所有训练数据),这个惩罚分越高;
  • λ ≥ 0 \lambda \geq 0 λ≥0:权衡系数,用来平衡"训练效果"和"模型复杂度"( λ \lambda λ 越大,越看重模型简单,越能防止过拟合);
  • 核心逻辑 :SRM 认为,"经验风险小 + 模型简单"(结构风险最小)的模型,才是最优模型,优化目标:
    min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f) f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)

2.4 训练误差与测试误差

我们平时判断模型好坏,常用的两个"直观指标",其实就是经验风险的具体应用,对应"做旧题"和"做新题"的能力,衔接前文核心目标(泛化能力):

(1)训练误差(Training Error)

就是模型关于训练数据集(旧题) 的平均损失,和经验风险本质一样,反映模型"记牢旧题"的能力:
R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) \mathcal{R}{emp}(\hat{f}) = \frac{1}{N} \sum{i=1}^N L(y_i,\hat{f}(x_i)) Remp(f^)=N1i=1∑NL(yi,f^(xi))

通俗说:训练误差越小,说明模型把"练习题"做得越好,但不代表能做好"新题"(可能是死记硬背)。

(2)测试误差(Test Error)

模型关于测试数据集(新题) 的平均损失,反映模型的"泛化能力"(做新题的能力),是我们判断模型实用价值的关键:
E t e s t = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) ) E_{test} = \frac{1}{N'} \sum_{i=1}^{N'} L(y_i,\hat{f}(x_i)) Etest=N′1i=1∑N′L(yi,f^(xi))

补充2个分类任务常用的衍生指标(0-1损失下,新手易理解):

  • 测试误差(分类场景):就是模型预测错误的比例:
    E t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i ≠ f ^ ( x i ) ) E_{test} = \frac{1}{N'} \sum_{i=1}^{N'} I(y_i \neq \hat{f}(x_i)) Etest=N′1i=1∑N′I(yi=f^(xi))
  • 测试准确率(分类场景):就是模型预测正确的比例,和测试误差互补(准确率越高,测试误差越小):
    r t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i = f ^ ( x i ) ) r_{test} = \frac{1}{N'} \sum_{i=1}^{N'} I(y_i = \hat{f}(x_i)) rtest=N′1i=1∑N′I(yi=f^(xi))

2.5 过拟合与正则化实例(多项式回归)

(1)M 次多项式模型(M-th Order Polynomial Model)

f M ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ i = 0 M w i x i f_M(x,w) = w_0 + w_1x + w_2x^2 + \dots + w_Mx^M = \sum_{i=0}^M w_i x^i fM(x,w)=w0+w1x+w2x2+⋯+wMxM=i=0∑Mwixi

符号 含义 新手通俗解释
M M M 多项式阶数(模型复杂度) M M M 越大,模型越复杂、曲线越曲折; M = 0 M=0 M=0是水平线, M = 1 M=1 M=1是直线, M = 9 M=9 M=9是复杂高次曲线
w i w_i wi 多项式系数(模型参数) 模型可调的"参数旋钮",通过训练数据学习得到,决定曲线形状
f M ( x , w ) f_M(x,w) fM(x,w) 模型预测值 输入 x x x,输出拟合结果,目标是贴近真实数据 y y y

图表核心规律:

  1. M=0(常数):水平直线,抓不住数据趋势 → 欠拟合(模型太简单)
  2. M=1(一次直线):只能看大致趋势,拟合不了曲线变化 → 仍欠拟合
  3. M=3(三次多项式):贴合真实规律,不瞎波动 → 拟合最优、泛化能力强
  4. M=9(高次多项式):硬怼所有样本点、曲线乱晃 → 过拟合(死记数据、不学规律)
  • M M M越小 → 模型越简单 → 容易欠拟合
  • M M M越大 → 模型越复杂 → 容易过拟合
  • 最优思路:选适中阶数,或用正则化限制模型乱复杂

(2)经验风险最小化(无正则化):过拟合的根源

平方损失下无正则化的经验风险:
L ( w ) = 1 2 ∑ i = 0 N ( ∑ j = 0 M w j x i j − y i ) 2 L(w) = \frac{1}{2} \sum_{i=0}^N \left( \sum_{j=0}^M w_j x_i^j - y_i \right)^2 L(w)=21i=0∑N(j=0∑Mwjxij−yi)2

通俗理解:

  • 1 2 \frac12 21:纯数学化简用,不影响最终最优结果;
  • 内层求和是模型预测值,减真实值再平方,统计整份训练数据的总误差;
  • 模型为了把训练误差压到最低,阶数 M M M很高时会疯狂调大参数,把数据里的噪声、杂波也当成规律记住,最终造成严重过拟合。

--

(3)正则化:给过拟合「踩刹车」

正则化 = 在原有误差基础上,加一项模型复杂度惩罚,让模型:既要贴合数据,又不能太复杂。

① L2 正则化(岭回归)

L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∥ w ∥ 2 2 L(w) = \frac{1}{N} \sum_{i=1}^N (f(x_i;w)-y_i)^2 + \frac{\lambda}{2} \|w\|_2^2 L(w)=N1i=1∑N(f(xi;w)−yi)2+2λ∥w∥22

  • ∥ w ∥ 2 2 = ∑ w j 2 \|w\|_2^2=\sum w_j^2 ∥w∥22=∑wj2:惩罚所有参数平方和;
  • 效果:把参数整体缩小,曲线变平滑,抑制过拟合;参数不会变成0;
  • λ \lambda λ越大,惩罚越重,太大会反过来造成欠拟合。
② L1 正则化(Lasso 回归)

L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ ∥ w ∥ 1 L(w) = \frac{1}{N} \sum_{i=1}^N (f(x_i;w)-y_i)^2 + \lambda \|w\|_1 L(w)=N1i=1∑N(f(xi;w)−yi)2+λ∥w∥1

  • ∥ w ∥ 1 = ∑ ∣ w j ∣ \|w\|_1=\sum |w_j| ∥w∥1=∑∣wj∣:惩罚参数绝对值之和;
  • 效果:能把不重要特征的参数直接压成0,自动筛掉无用项,兼具正则化+特征选择
③ 正则化核心对比
正则化类型 惩罚形式 核心效果 适用场景
L2(岭回归) 惩罚参数平方和 参数整体缩小、曲线平滑 保留所有特征,只单纯防过拟合
L1(Lasso) 惩罚参数绝对值和 部分参数归零、自动筛特征 数据特征多,需要精简模型

关键:

  • λ = 0 \lambda=0 λ=0:等于没加正则,容易过拟合;
  • λ \lambda λ过大:惩罚过头,模型变笨、出现欠拟合;
  • 最优 λ \lambda λ一般靠交叉验证选出。

2.6 过拟合(Over-Fitting)通俗定义

模型太复杂,把训练数据背得滚瓜烂熟(训练误差极低),但看不懂新数据、预测新样本极差(测试误差很高);本质是记住了噪声,没学到真实规律。

图表解读

  • 蓝色训练误差:模型越复杂,误差一路走低,甚至趋近于0;
  • 黄色测试误差:前期跟着降低,复杂度超标后快速飙升;
  • 拐点之前:模型在学真实规律;拐点之后:模型在死记硬背训练数据。

3. 泛化误差与泛化误差上界

3.1 泛化误差(Generalization Error)

模型在未知数据 上的期望风险,是衡量模型泛化能力的核心指标:
R e x p ( f ^ ) = E P [ L ( Y , f ^ ( x ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y \mathcal{R}_{exp}(\hat{f}) = \mathbb{E}P[L(Y,\hat{f}(x))] = \int{X \times Y} L(y,\hat{f}(x)) P(x,y)dxdy Rexp(f^)=EP[L(Y,f^(x))]=∫X×YL(y,f^(x))P(x,y)dxdy

严谨保留:该积分遍历全部输入、输出空间,依托真实全局概率分布 P ( x , y ) P(x,y) P(x,y),计算损失函数的数学期望,是泛化能力的理论真值。
通俗理解:你手里只有一套练习题(训练集),但泛化误差是把全世界所有同类题目都拿来测试,算出的平均错题率;这个数值才代表模型真正的实力,不是靠死记练习题刷出来的分数。


3.2 泛化误差上界(Generalization Error Bound)

泛化误差的概率上界,严格刻画经验风险真实期望风险之间的最大差距。

通俗理解:我们算不出真实的「全世界平均分」,就给它定一条最高不会超过的红线;真实误差一定低于这条红线,用来预判模型会不会翻车。

二分类问题的泛化误差上界

已知条件

  • 训练集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ... , ( x N , y N ) } T = \{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}, N N N 为样本量,独立同分布于 P ( X , Y ) P(X,Y) P(X,Y);
  • X ∈ R n X \in \mathbb{R}^n X∈Rn, Y ∈ { − 1 , + 1 } Y \in \{-1,+1\} Y∈{−1,+1},损失为 0-1 损失;
  • 假设空间 F = { f 1 , f 2 , ... , f d } \mathcal{F}=\{f_1,f_2,\dots,f_d\} F={f1,f2,...,fd}, d d d 为函数个数。

通俗理解:就是最简单的二选一分类(比如正/负、猫/狗),对错只记 0 0 0 和 1 1 1;同时划定所有可选模型的集合,一共 d d d 种候选。

核心数学结论

对 ∀ f ∈ F \forall f \in \mathcal{F} ∀f∈F,至少以概率 1 − δ 1-\delta 1−δ( 0 < δ < 1 0<\delta<1 0<δ<1)满足:
R ( f ) ≤ R ^ ( f ) + ε ( d , N , δ ) \mathcal{R}(f) \leq \hat{\mathcal{R}}(f) + \varepsilon(d,N,\delta) R(f)≤R^(f)+ε(d,N,δ)

其中,泛化误差上界:
ε ( d , N , δ ) = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N} \left( \log d + \log \frac{1}{\delta} \right)} ε(d,N,δ)=2N1(logd+logδ1)

通俗理解:

真实考试误差 ≤ \le ≤ 平时刷题误差 + + + 安全浮动余量 ε \varepsilon ε

只要置信水平设为 1 − δ 1-\delta 1−δ,这个结论大概率成立。

严谨解读

  1. 真实泛化误差 R ( f ) \mathcal{R}(f) R(f) 由两部分构成:训练集拟合误差 R ^ ( f ) \hat{\mathcal{R}}(f) R^(f) + + + 统计波动余项 ε \varepsilon ε;
  2. ε ∝ 1 N \varepsilon \propto \dfrac{1}{\sqrt{N}} ε∝N 1: ε \varepsilon ε 是 N N N 的单调递减函数,样本量 N N N 越大,泛化上界越紧致;
  3. ε ∝ log ⁡ d \varepsilon \propto \sqrt{\log d} ε∝logd : ε \varepsilon ε 随假设空间规模 d d d 对数增长,模型集合越复杂,泛化容错上限越高,过拟合风险越大。

通俗补充:

① 样本越多( N N N 变大),刷题量充足,训练分数越贴近真实水平,浮动红线变小;

② 可选模型越多、结构越复杂( d d d 变大),模型容易死记训练数据,只能拉高误差红线兜底,更容易过拟合。

证明基础:Hoeffding 不等式(原式完整保留)

P [ X ˉ − E ( X ˉ ) ≥ t ] ≤ exp ⁡ ( − 2 N 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P[\bar{X}-\mathbb{E}(\bar{X}) \geq t] \leq \exp \left( -\frac{2N^2 t^2}{\sum_{i=1}^n (b_i - a_i)^2} \right) P[Xˉ−E(Xˉ)≥t]≤exp(−∑i=1n(bi−ai)22N2t2)

通俗理解:这是概率论的误差约束工具------保证「样本平均分」不会离谱偏离「真实平均分」,把随机波动锁在可控范围里。

严格推导关键步骤(数学链路完整)

  1. 令逐样本损失随机变量: X i = L ( y i , f ( x i ) ) X_i = L(y_i,f(x_i)) Xi=L(yi,f(xi)),则样本均值 X ˉ = R ^ ( f ) \bar{X} = \hat{\mathcal{R}}(f) Xˉ=R^(f),数学期望 E ( X ˉ ) = R ( f ) \mathbb{E}(\bar{X}) = \mathcal{R}(f) E(Xˉ)=R(f);

通俗:把每一道题的对错看成一个随机值,刷题平均分就是经验误差,全局平均分就是真实泛化误差。

  1. 0-1 损失满足有界性 X i ∈ [ 0 , 1 ] X_i \in [0,1] Xi∈[0,1],代入 Hoeffding 不等式化简得:
    P ( R ( f ) − R ^ ( f ) ≥ ε ) ≤ exp ⁡ ( − 2 N ε 2 ) P(\mathcal{R}(f)-\hat{\mathcal{R}}(f) \geq \varepsilon) \leq \exp(-2N\varepsilon^2) P(R(f)−R^(f)≥ε)≤exp(−2Nε2)

通俗:对错只有 0 0 0/ 1 1 1,取值范围固定,就能把「真实误差比训练误差大很多」的概率压得极低。

  1. 对有限假设空间全体函数取联合界 ,置置信参数: δ = d exp ⁡ ( − 2 N ε 2 ) \delta = d \exp(-2N\varepsilon^2) δ=dexp(−2Nε2),等价变形解得:
    ε = 1 2 N ( log ⁡ d + log ⁡ 1 δ ) \varepsilon = \sqrt{\frac{1}{2N} \left( \log d + \log \frac{1}{\delta} \right)} ε=2N1(logd+logδ1)

通俗:给所有候选模型统一兜底,算出最终的安全余量 ε \varepsilon ε,保证整组模型在大概率下泛化误差不超红线。


4. 总结

监督学习核心逻辑:明确模型范围→定义评判标准→找到最优模型→保证泛化能力

核心脉络

  1. 三要素:方法 = 模型 + 策略 + 算法

    • 模型:从假设空间选择,分决策函数( Y = f θ ( x ) Y=f_\theta(x) Y=fθ(x))和条件概率模型( P θ ( Y ∣ x ) P_\theta(Y|x) Pθ(Y∣x));
    • 策略:以损失函数定评判标准,通过ERM(样本多)、SRM(样本少+正则化)选最优模型;
    • 算法:实现风险最小化的具体步骤。
  2. 关键概念

    • 损失函数:单次预测误差(分类→0-1损失,回归→平方损失,概率模型→对数损失);
    • 泛化误差:未知数据上的真实误差,泛化误差上界约束其与训练误差的差距;
    • 欠拟合/过拟合:前者提升模型复杂度,后者通过L1/L2正则化或增样本缓解。

终极结论

监督学习本质是在假设空间中,找到结构风险最小的模型,兼顾训练拟合度与未知数据泛化能力,为后续具体模型学习奠定理论基础。

相关推荐
向上的车轮2 小时前
AI智能体开发:需求分析要点与实战指南
人工智能·需求分析
fobwebs2 小时前
wordpress GEO插件指南
人工智能·wordpress·geo·ai搜索优化·geo优化
GMATG_LIU2 小时前
电子背散射衍射(EBSD)技术的优势
人工智能
今天也要学习吖3 小时前
开源AI智能客服系统AI-CS
人工智能·ui·chatgpt·golang·开源·gemini·智能客服系统
YuanDaima20483 小时前
[CrewAI] 第15课|构建一个多代理系统来实现自动化简历定制和面试准备
人工智能·python·面试·agent·crewai
TDengine (老段)3 小时前
TDengine IDMP 工业数据建模 —— 属性
大数据·数据库·人工智能·时序数据库·tdengine·涛思数据
qqty12173 小时前
Java进阶学习之路
java·开发语言·学习
WHS-_-20223 小时前
Python 算法题学习笔记一
python·学习·算法
机器之心3 小时前
京东卷出新高度!硬刚「复杂指令」长时长、自由态数字人直播终于丝滑了
人工智能·openai