【AI】大数据机器学习—统计学习及监督学习概论

统计学习包括监督学习、无监督学习、半监督学习和强化学习。

参考书是李航的《统计学习方法》，该书主要讨论监督学习。

统计学习作为一个研究领域，主要包括统计学习方法、统计学习理论和统计学习应用。统计学习方法主要关注的问题是设计新的学习方法。

一、统计学习方法的三要素

统计学习方法主要包括模型的假设空间、模型选择的准则和模型学习的算法，简称为模型、策略和算法。

假设空间 是一个很重要的概念，监督学习是学习一个从输入到输出的映射，该映射由模型来表示，换言之，学习的目的是找到最好的一个模型 。模型属于从输入空间到输出空间的映射的集合，而该集合就是假设空间。假设空间的范围大于等于模型的空间。

实现一个统计学习方法的步骤如下：

得到一个有限的训练数据集合；
确定包含所有可能模型的假设空间，即学习模型的集合；
确定模型选择的准则，即学习的策略，如何衡量一个模型的好坏；
实现求解最优模型的算法，即学习的算法；
通过学习方法选择最优模型；
利用最优模型对新数据做预测和分析。

二、监督学习的三要素分析

2.1 模型

在监督学习过程中，模型包括概率模型和非概率模型 ，前者所要学习的是条件概率分布，后者学习的是决策函数。监督学习模型的假设空间包含所有可能的条件概率分布或决策函数，假设空间中的模型一般有无穷多个。

总之，由决策函数表示的模型是非概率模型，由条件概率分布表示的模型是概率模型。

2.2 策略

首先引入两个概念，损失函数和风险函数，损失函数（loss function）度量模型一次预测的好坏 ，风险函数（risk funciton）度量模型平均意义下预测的好坏。

风险函数又称为期望损失（expected loss），因为它相当于是平均意义上的损失。

损失函数是度量预测错误的程度，不同的损失函数有不同的特性，统计学习中的损失函数有 0-1 损失函数，平方损失函数，绝对损失函数，对数损失函数等。损失值越小，模型就越好，而学习的目标是找出整体风险（平均损失）最小的模型。

使风险最小有两种策略，这也是监督学习的两个基本策略：经验风险最小化（empirical risk minimization, ERM）和结构风险最小化（structural risk minimization, SRM） 。风险最小就是使模型的平均损失最小，一个直观的想法是，随着训练样本数目的增加，经验风险会趋近于期望风险（即理想值），但这是不现实的，且若训练样本数较少 ，还存在过拟合问题。

经验风险最小化的例子：极大似然估计

因此为了避免在数据量较少时出现过拟合现象，又提出了结构风险最小化，它等价于正则化。结构风险在经验风险的基础上加入表示模型复杂度的正则化项或惩罚项，如加入模型复杂度的惩罚项，模型越复杂，其值越大，从而使结构风险也相应变大。

结构风险最小化的例子：贝叶斯估计

2.3 算法

算法就是指用何种计算方法求解最优模型，本质上就是求解使风险最小的最优化问题 。若该最优化问题有显式的解析解 ，那么比较简单，但通常解析解不存在，则需要数值解法求解。