机器学习——第十二章 计算学习理论

12.1 基础知识

计算学习理论(computational learning theory)研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。

经验误差和泛化误差:

假设给定训练集\(D=\{(\boldsymbol{x}{1},y{1}),(\boldsymbol{x}{2},y{2}),\ldots,(\boldsymbol{x}{m},y{m})\}, \boldsymbol{x}{i}\in\mathcal{X}\),本章主要讨论二分类问题,若无特别说明,\(y{i}\in\mathcal{Y}=\{-1,+1\}\)。其中所有的训练样本都服从一个未知的分布\(\mathcal{D}\),且它们都是在总体分布\(\mathcal{D}\)中独立采样得到,即独立同分布(independent and identically distributed,i.i.d.)。

令\(h\)为从\(\mathcal{X}\)到\(\mathcal{Y}\)的一个映射,其泛化误差为:

\(E(h;\mathcal{D})=P_{\boldsymbol{x}\sim\mathcal{D}}(h(\boldsymbol{x})\neq y)\)

\(h\)在D上的经验误差为:

\(\widehat{E}(h;D)=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}\big(h(x_{i})\neq y_{i}\big)\)

泛化误差指的是学习器在总体上的预测误差,经验误差则是学习器在某个特定数据集D上的预测误差
几个常用不等式:

  • Jensen 不等式:对任意凸函数\(f(x)\),有

\(f(\mathbb{E}(x))\leqslant\mathbb{E}(f(x))\)

  • HoefIding 不等式[HoefIding , 1963]: 若\(x_{1},x_{2},\ldots,x_{m}\)为m 个独立随机变
    量,且满足\(0\leqslant x_{i}\leqslant1\),则对任意\(\epsilon>0\)有

\(\begin{gathered}

P\left(\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\Big|\sum_{i=1}^{m}\mathbb{E}(x_{i})\geqslant\epsilon\right)\leqslant\exp(-2m\epsilon^{2}) \\

P\left(\left|\frac{1}{m}\sum_{i=1}^{m}x_{i}-\frac{1}{m}\sum_{i=1}^{m}\mathbb{E}(x_{i})\right|\geqslant\epsilon\right)\leqslant2\exp(-2m\epsilon^{2})

\end{gathered}\)

  • McDiarmid 不等式[McDiarmid , 1989]:若\(x_{1},x_{2},\ldots,x_{m}\)为m 个独立随机变
    量,且对任意\(1\leqslant i\leqslant m\),函数\(f\)满足

\(\sup_{x_1,\ldots,x_m, x_i^{\prime}}|f(x_1,\ldots,x_m)-f(x_1,\ldots,x_{i-1},x_i^{\prime},x_{i+1},\ldots,x_m)|\leqslant c_i\)

则对任意\(\epsilon>0\) ,有

\(P\left(f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\geqslant\epsilon\right)\leqslant\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right) \\P\left(\left|f\left(x_{1},\ldots,x_{m}\right)-\mathbb{E}\left(f\left(x_{1},\ldots,x_{m}\right)\right)\right|\geqslant\epsilon\right)\leqslant2\exp\left(\frac{-2\epsilon^{2}}{\sum_{i}c_{i}^{2}}\right)\)

12.2 PAC学习

PAC学习原理(Probably Approximately Correct,概率近似正确)是计算学习理论中的一个核心概念。该原理旨在解释为什么一个假设(或模型、函数)在学习了训练样本后,能够在训练样本之外的数据上有效地进行预测。

PAC学习原理的基本思想是:对于一个给定的概念类(即所有可能的目标概念的集合),如果存在一个多项式时间的学习算法,它能够从训练样本中学习到一个假设,使得该假设在训练样本之外的数据上的错误率以很大的概率(通常接近于1)低于一个预先设定的阈值,并且所需的训练样本数量和学习时间都是多项式级别的,那么我们就称这个概念类是PAC可学习的。

  • \(C\):概念类。表示从样本空间到标记空间的映射,对任意样例,都能使得\(c(x)=y\)。

  • \(H\):假设类。学习算法会把认为可能的目标概念集中起来构成\(H\)。

  • 若\(c\in H\),则说明假设能将所有示例按真实标记一致的方式完全分开,称为该问题对学习算法而言是"可分的";否则,称为"不可分的"
    对于训练集,我们希望学习算法学习到的模型所对应的假设\(h\)尽可能接近目标概念\(c\)。我们是希望以比较大的把握学得比较好的模型,也就是说,以较大的概率学得误差满足预设上限的模型,这就是"概率近似正确"的含义。形式化地说,令\(\delta\)表示置信度,可定义:

  • PAC辨识:对\(0\leq\epsilon,\delta<1\),所有的\(c\in \mathcal{C}\)和分布\(\mathcal{D}\),若存在学习算法,其输出假设\(h\in H\)满足:

\(\mathrm P(\mathrm E(\mathrm h)\leq\epsilon)\geq1-\delta \)

则称学习算法能从假设空间\(\mathcal{H}\)中PAC辨识概念类\(\mathcal{C}\)。这样的学习算法能以较大的概率(至少\(1-\delta\)学得目标概念\(c\)的近似 (误差最多为\(\epsilon \))。在此基础上可定义:

  • PAC可学习:令\(m\)表示从分布\(\mathcal{D}\)中独立同分布采样得到的样例数目,\(0\leq\epsilon,\delta<1\),对所有分布\(\mathcal{D}\),若存在学习算法和多项式函数\(poly(1/\epsilon,1/delta,size(x),size(c))\)(样例数目m与误差\(\epsilon \)、置信度\(1-\delta\)、数据本身的复杂度size(x)、目标概念的复杂度size(c)都有关),使得对于任何\(m\ge poly(1/\epsilon,1/delta,size(x),size(c))\),学习算法能从假设空间中PAC辨识概念类\(\mathcal{C}\),则称概念类\(\mathcal{C}\)对假设空间而言是PAC可学习的,有时也简称概念类\(\mathcal{C}\)是PAC 可学习的。
  • PAC学习算法:满足PAC可学习的算法。(假定学习算法处理每个样本的时间为常数,因此C 的时间复杂度等价于样本复杂度。于是,我们对算法时间复杂度的关心就转化为对样本复杂度的关心)
  • 样本复杂度(Sample Complexity):满足\(m \ge poly(1/\epsilon,1/\delta,size(x),size(c))\)的最小的m。
    PAC学习中一个关键因素是假设空间 \(\mathcal{H}\)的复杂度。\(\mathcal{H}\)包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即\(\mathcal{H}\)=\(\mathcal{C}\),这称为"恰PAC可学习" (properly PAC learnable)。直观地看,这意味着学习算法的能力与学习任务"恰好匹配"。然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类\(\mathcal{C}\)通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法。显然,更重要的是研究假设空间与概念类不同的情形,即\(H \neq C\)。 一般而言,\(\mathcal{H}\)越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大。\(|H|\)有限时,我们称究为"有限假设空间",否则称为"无限假设空间"。
相关推荐
会飞的Anthony2 分钟前
基于Python的自然语言处理系列(14):TorchText + biGRU + Attention + Teacher Forcing
人工智能·自然语言处理
张望远-长风万里3 分钟前
运维监控专项学习笔记-id:0-需求场景、监控作用、监控能力
运维·笔记·学习
jun7788954 分钟前
机器学习-监督学习:朴素贝叶斯分类器
人工智能·学习·机器学习
FL16238631296 分钟前
基于yolov5的混凝土缺陷检测系统python源码+onnx模型+评估指标曲线+精美GUI界面
人工智能·python·yolo
Kenneth風车9 分钟前
【第十三章:Sentosa_DSML社区版-机器学习聚类】
人工智能·低代码·机器学习·数据分析·聚类
jndingxin17 分钟前
OpenCV运动分析和目标跟踪(4)创建汉宁窗函数createHanningWindow()的使用
人工智能·opencv·目标跟踪
机器之心18 分钟前
o1 带火的 CoT 到底行不行?新论文引发了论战
android·人工智能
机器之心24 分钟前
从架构、工艺到能效表现,全面了解 LLM 硬件加速,这篇综述就够了
android·人工智能
程序猿 董班长28 分钟前
socket学习
学习
jndingxin1 小时前
OpenCV特征检测(1)检测图像中的线段的类LineSegmentDe()的使用
人工智能·opencv·计算机视觉