机器学习是从有限的观测数据中学习出具有一般性的规律,并可以将总结出来的规律推广应用到为观测样本上。机器学习方法课粗略地分为三个基本要素:模型、学习准则、优化算法。
4.1 模型
对于一个机器学习任务,首先要确定其输入空间Χ和输出空间У,不同机器学习任务的主要区别在于输出空间不同。在二分类问题У={+1,-1},在C分类问题中У={1,2,...,C},而在回归问题中У=R。
输入空间Χ和输出空间У构成了一个样本空间。对于样本空间中的样本
,假设x和y之间的关系可以通过一个未知的真实映射函数
来描述,机器学习的目标是找到一个模型来近似真实映射函数
。
由于我们不知道真实的映射函数
的具体形式,因此只能根据经验来假设一个函数集合
,称为假设空间,然后观测其在训练集D上的特性,从中选择一个理想的假设
。
假设空间
通常为一个参数化的函数族:

其中
为参数为
的函数,也称为模型,D为参数的数量。
常见的假设空间可以分为线性和非线性两种,对应的模型也称为线性模型和非线性模型。
注:
根据训练样本提供的信息以及反馈方式的不同,可将机器学习算法分为以下几类:
监督学习: 如果机器学习的目标是建模样本的特征x和标签y之间的关系:y=f(x;θ)
,并且训练集中每个样本都有标签,那么这类机器学习称为监督学习,根据标签类型的不同,监督学习又可以分为回归问题、分类问题和结构化学习问题。
- 回归问题中的标签y是连续值(实数或连续整数),y=f(x;θ)
的输出是个连续值。 - 分类问题中的标签y是离散的类别,在分类问题中,学习到的模型也称为分类器。分类问题根据其类别数量又可分为二分类和多分类。
- 结构化学习问题是一种特殊的分类问题。在结构化学习中,标签y通常是结构化的对象,如序列、树或图等。
无监督学习:是指从不包含目标标签的训练样本中自动学习到一些有价值的信息。典型的无监督学习问题又聚类问题、密度估计、特征学习、降维等。
***强化学习:*是一类通过交互来学习的机器学习算法。在强化学习中,智能体根据环境的状态做出一个动作,并得到即时或延时的奖励。智能体在和环境的交互中不断学习并调整策略,以取得最大化的期望总汇报。
监督学习需要每个样本都有标签,而无监督学习则不需要标签.一般而言,监督学习通常需要大量的有标签数据集,这些数据集一般都需要由人工进行标注,成本很高.因此,也出现了很多弱监督学习和半监督学习的方法,希望从大规模的无标注数据中充分挖掘有用的信息,降低对标注样本数量的要求.
强化学习和监督学习的不同在于,强化学习不需要显式地以"输入输出对"的方式给出训练样本,是一种在线的学习机制.
4.1.1 线性模型
线性模型的假设空间为一个参数化的线性函数族,即

其中参数
包含了权重向量
和偏置
4.1.2 非线性模型
广义的非线性模型可以写为多个非线性基函数
的线性组合

其中
为K个非线性基函数组成的向量,参数
包含了权重向量
和偏置
。
如果
本身为可学习的基函数,则
可等价于多层的神经网络模型。
4.2 学习准则
训练集
是由N个独立同分布的样本组成,即每个样板
是从
的联合空间中按照某个未知分布独立地随机产生的。
一个好的模型
应该是在所
的可能取值上都与真实映射函数
一致,即

其中
是一个很小的正数。
模型
的好坏可以通过期望风险来衡量,其定义为:

其中:
为真实的数据分布,
为损失函数,用来量化两个变量之间的差异。
4.2.1 损失函数
至于损失函数,最直观的损失函数是模型在训练集上的错误率,即0-1损失函数,即

虽然0-1损失函数能够客观的评价模型的好坏,但其缺点是数学性质不是很好;不连续且导数为0,难以优化,因此经常用连续可微的损失函数替代。
如平方损失函数、交叉熵损失函数等等
4.2.2 风险最小化准则
一个好的模型
应当由比较小的期望错误,但由于不知道真实的数据分布和映射函数,实际上无法计算其期望风险
。我们可以在训练集D的基础上计算经验风险,即在训练集上的平均损失:

因此,一个切实可行的学习准则就是找到一组参数
使得经验风险最小。
4.2.3 过拟合与欠拟合
根据大数定理可知,当训练集大小趋于无穷大时,训练风险就趋向于期望风险,然而在通常情况下,我们无法获取无限的训练样本,并且训练样本往往是真实数据的一个很小的子集或者包含一定的噪声数据,不能很好地反映全部数据的真实分布。经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高,这就是所谓的过拟合。
过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。为了解决过拟合问题,一般在经验风险最小化的基础上再引入参数的正则化来限制模型能力,使其不要过度地最小化经验风险。这种准则就是结构风险最小化准则。
所谓参数的正则化,是一种抑制模型过拟合的重要技术,目标是在优化模型性能的同时提高其泛化能力。通过对模型参数施加约束,正则化可以防止模型过度拟合训练数据而导致在测试数据上表现不佳。
正则化的核心思想是在损失函数中加入一个惩罚项,该惩罚项与模型的参数相关。通过限制参数的大小,正则化鼓励模型选择更简单的解。这样可以避免模型训练上过渡复杂,从而提高在新数据上的泛化能力。
正则化的损失函数通常表示为:

其中:
即是经验风险的损失函数;
为正则项,表示对参数的约束;
为正则化强度,决定了正则化的权重。
常规的正则化方法有几种,如
- L1正则化,

- L2正则化,

与过拟合相反的一个概念就是欠拟合,即模型不能很好地地拟合训练数据,在训练集上的错误率比较高。欠拟合一般是由模型能力不足造成的。

总之,机器学习中的学习准则并不仅仅是拟合训练集上的数据,同时也要使得泛化错误最低.给定一个训练集,机器学习的目标是从假设空间中找到一个泛化错误较低的"理想"模型,以便更好地对未知的样本进行预测,特别是不在训练集中出现的样本.因此,我们可以将机器学习看作一个从有限、高维、有噪声的数据上得到更一般性规律的泛化问题.
4.3 优化算法
在确定了训练集D、假设空间和学习准则后,如何找到最优的模型
就成了一个最优化问题。机器学习的训练过程其实就是最优化问题的求解过程。
在机器学习中,优化的对象可分为参数优化的超参数优化模型
中的
称为模型的参数,可以通过优化算法进行学习。处理可学习的参数
外,还有一类参数用来定义模型结构或优化策略的,这类参数称做超参数。
常见的超参数包括:聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数等,超参数的选取一般都是组合优化问题,很难通过优化算法进行自学习。因此,超参数优化是机器学习的一个经验性很强的技术,它通常要按照人的经验设定,或者通过搜索的方法对一组超参数组合进行不断试错调整。
在机器学习中,最简单、常用的优化算法是梯度下降法,即首先初始化参数,然后通过下面的迭代公式
来计算训练集D上风险函数的最小值;


其中
为第t次迭代时的参数值,
为搜索步长。在机器学习中,
一般称为学习率。
梯度下降法的基本思想是从一个初始点出发,沿着函数梯度的反方向(即最陡峭的下降方向)不断迭代更新参数,直到达到一个极小值点。这个过程可以形象地理解为下山过程:想象你站在山顶,想要尽快下山,最快的方式就是沿着最陡峭的方向往下走,这就是梯度下降法的核心思想。
梯度下降法有多种类型,包括批量梯度下降法、随机梯度下降法和小批量梯度下降法,它们在每次更新时使用的数据量不同,从而在计算效率和精确性之间取得平衡