机器学习第十二章-计算学习理论

目录

12.1基础知识

[12.2 PAC学习](#12.2 PAC学习)

12.3有限假设空间

12.3.1可分情形

12.3.2不可分情形

12.4VC维

[12.5 Rademacher复杂度](#12.5 Rademacher复杂度)


12.1基础知识

计算学习理论研究的是关于通过"计算"来进行"学习"的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。
给定样例集 = {(X1 , Y2) , (X2,Y2 ),..., (Xm , Ym)} ,
令h为X到Y 的一个映射,其泛化误差为:

h在D上的经验误差为:

后面部分将研究经验误差与泛化误差之间的逼近程度会用到几个常用不等式:
1.Jensen 不等式:对任意凸函数 f(x) ,有:

2.HoefIding 不等式 : 若 为m个独立随机变量,且满足 ,则对任意 ,有:

3.McDiarmid 不等式 : 若 为m个独立随机变量,且对任意1<i<m,函数f 满足:

12.2 PAC学习

计算学习理论中最基本的是概率近似正确 ( 简称 PAC) 学习理论 。
PAC 辨识 :对 ,所有 和分布D,若存在学习算法,其输出假设 满足:

则称学习算法 能从假设空间中 PAC 辨识概念类 C.
PAC 可学习 : 令m表示从分布D中独立同分布采样得到的样例数目,,对所有分布D, 若存在学习算法£和多项式函数poly,使得对任何m>poly.
PAC 学习算法 : 若学习算法使概念类 C为PAC 可学习的,且 的运行时间也多项式函数 poly ,则称概念类 C 是高效 PAC 可学习 的,称为概念类C的 PAC 学习算法.
样本复杂度 : 满足 PAC 学习算法所需的 m> poly 中最小的m,称为学习算法 的样本复杂度.

12.3有限假设空间

12.3.1可分情形

可分情形意味着目标概念c属于假设空间H,即 。对 PAC 学习来说,只要训练集D 的规模能使学习算法以概率 找到目标假设的近似即可.

我们先估计泛化误差大于 但在训练集上仍表现完美的假设出现的概率. 假定 h的泛化误差大于 ,对分布 D上随机来样而得的任何样例 (x y)有:

由于D包含 m个从 D 独立同分布采样而得的样例,因此,h与D 表现一 致的概率为:

12.3.2不可分情形

引理:若训练集D包含m个从分布D上独立同分布采样而得的样例,,则对任意 ,有:

推论 :若训练集D 包含 m个从分布 D上独立同分布来样而得的样例, ,则对任意 ,以至少 的概率成立:

定理 :若H为有限假设空间, ,则对任意 ,有:

12.4VC维

现实学习任务所面临的通常是无限假设空间,欲对此种情形的可学习性进行研究,需度量假设空间的复杂度.最常见的办法是考虑假设空间的 "VC维"。
1. 增长函数
增长函数,也称为VC维增长函数,描述了在给定假设空间下,能够被假设空间所"分割"或"覆盖"的训练样本的最大数量。具体来说,它衡量的是假设空间中能够对样本集进行不同标签分配的能力。增长函数的定义如下:对于一个假设空间 H )和一个样本集 S (大小为 m ),增长函数 ( ) 表示假设空间 H 能够对样本集 S 进行的不同标签分配的最大数量。

2. 打分
打分是一个与增长函数紧密相关的概念。它描述了一个假设空间能否对某个样本集进行所有可能的标签分配。具体来说:一个假设空间 (H )能打分一个样本集 S (大小为 m,如果 H 中的假设可以对 S 中的每一种可能的标签分配进行匹配。

3. 打散
打散(或称为分裂)是一个与打分相关的概念,描述了假设空间能否在所有可能的标签分配下对样本集进行准确的分类。具体来说:假设空间 H 能打散一个样本集S (大小为 m )如果H能对 S 中的每一种标签分配进行正确的分类。换句话说,如果假设空间 H 能生成所有可能的标签分配。

4. VC维
VC维是衡量一个假设空间复杂度的指标,它反映了假设空间能够打散的最大样本集的大小。具体来说:VC维是一个假设空间 H 可以打散的最大样本集的大小。即,如果假设空间 H 能打散大小为 d 的样本集,但不能打散大小为 d+1 的样本集,那么 H 的VC维就是 d。

增长函数 衡量假设空间对样本集进行的标签分配的能力。
打分 描述假设空间是否能够覆盖所有可能的标签分配。
打散 具体指假设空间对样本集进行所有可能标签分配的能力。
VC维是衡量假设空间复杂度的关键指标,反映了最大打散能力。

12.5 Rademacher复杂度

Rademacher 复杂度 是另一种刻画假设空间复 杂度的途径,与 vc 维不同的是,它在一定程度上考虑了数据分布.

给定训练集 ={(X1**,Y2),(X2,Y2),..., (Xm*,*Ym)} 假设h 的经验误差为:


经验误差最小的假设是:

是Rademacher 随机变量.
函数空间 F 关于 Z 的经验 Rademacher 复杂度:

函数空间 F 关于Z 上分布D的 Rademacher 复杂度:

相关推荐
浊酒南街1 小时前
决策树(理论知识1)
算法·决策树·机器学习
B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
学术头条1 小时前
清华、智谱团队:探索 RLHF 的 scaling laws
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
18号房客1 小时前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·sklearn
feifeikon1 小时前
机器学习DAY3 : 线性回归与最小二乘法与sklearn实现 (线性回归完)
人工智能·机器学习·线性回归
游客5201 小时前
opencv中的常用的100个API
图像处理·人工智能·python·opencv·计算机视觉
古希腊掌管学习的神1 小时前
[机器学习]sklearn入门指南(2)
人工智能·机器学习·sklearn
凡人的AI工具箱2 小时前
每天40分玩转Django:Django国际化
数据库·人工智能·后端·python·django·sqlite
IT猿手2 小时前
最新高性能多目标优化算法:多目标麋鹿优化算法(MOEHO)求解TP1-TP10及工程应用---盘式制动器设计,提供完整MATLAB代码
开发语言·深度学习·算法·机器学习·matlab·多目标算法
咸鱼桨2 小时前
《庐山派从入门到...》PWM板载蜂鸣器
人工智能·windows·python·k230·庐山派