统计学习笔记 第 5 部分:破碎系数

照片由 Unsplash上的 资源数据库提供

1:背景与动机

正如本系列之前的文章所述,统计学习理论为理解机器学习推理问题提供了一个概率框架。用数学术语来说,统计学习理论的基本目标可以表述为:

图片由作者提供

本文是统计学习理论系列的第 5 部分。前四件是:

在本系列的第 1 部分中,我们从第一原理推导了霍夫丁不等式,在第 2 部分中,我们证明了贝叶斯分类器的最优性,在第 3 部分中,我们开发了评估数据自适应机器学习采样估计器一致性的理论,在第4 部分中,我们推导了一致性有限大小函数类上的 ML 估计器的速率和泛化界限。在这篇文章中,我们将我们的理论扩展到无限大小函数类上的学习 ML 估计器,并利用破碎系数导出一致性率和泛化界限。

为了激发当前的兴趣问题,请考虑:

图片由作者提供

我们定义:

图片由作者提供

并回忆一下:

图片由作者提供
图片由作者提供

但是,如果我们考虑无限大小的函数类而不是有限的函数类怎么办?比如所有线性模型的函数类?在这种情况下,我们还有一致性吗?

在接下来的注释中,我们利用破碎系数推导了无限函数类上的 ML 估计器的不等式、比率和泛化界限。
图片由作者提供

本文的目录如下:
图片由作者提供

话虽如此,让我们开始吧。

2:破碎系数

2.1:破碎系数的定义

我们想要测量无限函数类的容量。破碎系数是此类容量测量中最简单的。
图片由作者提供

让我们通过一些简单的玩具示例来了解破碎系数的示例。

2.2:玩具示例#1

图片由作者提供

2.3:玩具示例#2

图片由作者提供

2.4:玩具示例#3

图片由作者提供

3:通过幽灵样本得出统计不平等

从本系列第 4 部分中的统计不平等开始:
图片由作者提供

我们将在本节中证明上述不等式右侧的进一步约束如下:
图片由作者提供

为了证明上述统计不等式,我们首先证明以下中间结果,稍后我们将利用:
图片由作者提供

上述中间结果的证明如下:
图片由作者提供

图片由作者提供

我们现在准备证明:
图片由作者提供

上述不等式的证明如下:
图片由作者提供

使用上面的统计不等式,在下一节中,我们利用破碎系数检查泛化界限和一致性率。

4:泛化界限和一致性率

根据上一节的结果,我们现在准备展示:
图片由作者提供

上述泛化界限的证明如下:
图片由作者提供

图片由作者提供

图片由作者提供

5:总结和结论

图片由作者提供

请注意,虽然我们能够导出无限大小函数类上的 ML 估计器的泛化界限和一致性率,但本文中的方法存在一些缺点。主要是:

  • 除了简单的玩具示例之外,破碎系数通常很难计算或计算。
  • 破碎系数也是特定样本大小" n "的函数,这意味着我们需要知道该系数渐近增长的速度,以便将其用于本文中使用的目的。

在本系列的后续第 6 部分中,我们将利用另一个工具来导出无限大小函数类的容量,即 Vapnik-Chervonenkis (VC) 维度。正如我们将在下一篇文章中看到的,对于某些用例,VC 维度比破碎系数更容易计算。与破碎系数不同,VC 维度不依赖于样本大小" n "。

为了参考扎实的统计学习理论内容,我会推荐Larry Wasserman(卡内基梅隆大学统计和机器学习教授)的教科书"All of Statistics"和"All of Nonparametric Statistics"、斯坦福大学教师的" Elements of Statistical Learning "和"Statistical"弗拉基米尔·瓦普尼克(Vladimir Vapnik)的学习理论

安德鲁·罗斯曼

相关推荐
中国国际健康产业博览会5 分钟前
2026第35届中国国际健康产业博览会探索健康与科技的完美结合!
大数据·人工智能
数字化脑洞实验室14 分钟前
选择AI决策解决方案需要注意哪些安全和数据隐私问题?
人工智能·安全
Guheyunyi20 分钟前
安全风险监测系统核心技术
运维·网络·人工智能·安全
golang学习记28 分钟前
再见了,claude code
人工智能
杀生丸学AI31 分钟前
【动态高斯重建】论文集合:从4DGT到OMG4、4DSioMo
人工智能·3d·aigc·三维重建·视觉大模型·动态高斯
CareyWYR40 分钟前
每周AI论文速递(251110-251114)
人工智能
mit6.8241 小时前
[AI tradingOS] 市场数据系统 | 多交易所交易接口 | 适配器模式
人工智能·区块链
ar01231 小时前
AR远程协助公司哪家好?国内外优秀AR技术公司解析
人工智能·ar
zhishidi1 小时前
大模型个性化推荐面试指南
人工智能·面试
中电金信1 小时前
2025新加坡金融科技节:看AI驱动的金融转型策略与“中国方案”
大数据·人工智能·金融