机器学习的三个基本要素

机器学习的基本要素包括模型、学习准则（策略）和优化算法三个部分。机器学习方法之间的不同，主要来自其模型、学习准则（策略）、优化算法的不同。

模型

机器学习首要考虑的问题是学习什么样的模型（Model）。在监督学习中，给定训练集，学习的目的是希望能够拟合一个函数 f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)来完成从输入特征向量 x {\bm x} x到输出标签的映射。这个需要拟合的函数 f ( x ; θ ) f({\bm x}; {\bm \theta}) f(x;θ)称为模型，它由参数向量 θ {\bm \theta} θ决定。 θ {\bm \theta} θ称为模型参数向量， θ {\bm \theta} θ所在的空间称为参数空间（Parameter Space）。一般来说，模型有两种形式，一种形式是概率模型（条件概率分布），另一种形式是非概率模型（决策函数）。决策函数还可以再分为线性和非线性两种，对应的模型称为线性模型和非线性模型。在实际应用中，将根据具体的学习方法来决定采用概率模型还是非概率模型。

将训练得到的模型称为一个假设，从输入空间到输出空间的所有可能映射组成的集合称为假设空间（Hypothesis Space）。在监督学习中，模型是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如，假设决策函数是输入特征向量 x {\bm x} x的线性函数，那么模型的假设空间是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个，而机器学习的目的是从这个假设空间中选择出一个最好的预测模型，即在参数空间中选择一个最优的估计参数向量 θ ^ \hat{{\bm \theta}} θ^。

学习准则（策略）

在明确了模型的假设空间之后，接下来需要考虑的是按照什么样的准则（策略）从假设空间中选择最优的模型，即学习准则或策略问题。

机器学习最后都归结为求解最优化问题，为了实现某一目标，需要构造出一个"目标函数"（Objective Function），然后让目标函数达到极大值或极小值，从而求得机器学习模型的参数。如何构造出一个合理的目标函数，是建立机器学习模型的关键，一旦目标函数确定，可以通过优化算法来求解。

对于监督学习中的分类问题与回归问题，机器学习本质上是给定一个训练样本集 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ... , ( x N , y N ) } T = \{({\bm x}_1, y_1), ({\bm x}_2, y_2), \ldots, ({\bm x}_N, y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}，尝试学习 x i → y i {\bm x}_i \rightarrow y_i xi→yi的映射函数 f ( x i ; θ ) f({\bm x}_i; {\bm \theta}) f(xi;θ)，其中 θ {\bm \theta} θ是模型的参数向量，使得给定一个输入样本数据 x {\bm x} x，即便这个 x {\bm x} x不在训练样本中，也能够为 x {\bm x} x预测出一个标签值 y ^ \hat{y} y^。

损失函数

（1）0-1 损失函数

0-1 损失函数（0-1 Loss Function）是最直接地反映模型正确与否的损失函数，对于正确的预测，损失函数值为 0；对于错误的预测，损失函数值为 1。其数学表达式为：
L ( y i , f ( x i ; θ ) ) = { 0 , f ( x i ; θ ) = y i 1 , f ( x i ; θ ) ≠ y i L(y_i, f({\bm x}_i; {\bm \theta})) = \begin{cases} 0, & f({\bm x}_i; {\bm \theta}) = y_i \\ 1, & f({\bm x}_i; {\bm \theta}) \neq y_i \end{cases} L(yi,f(xi;θ))={0,1,f(xi;θ)=yif(xi;θ)=yi

可见，0-1 损失函数不考虑预测值与实际值的误差大小，只要预测错误，损失函数值均为 1。虽然 0-1 损失函数能够直观地反映模型的错误情况，但是它的数学性质并不是很好------不连续也不可导，因此在优化时很困难。通常，会选择其他相似的连续可导函数来替代它。

（2）平方损失函数

平方损失函数（Quadratic Loss Function）是模型输出的预测值与实际观测值之差的平方，其数学表达式为：
L ( y i , f ( x i ; θ ) ) = [ y i − f ( x i ; θ ) ] 2 L(y_i, f({\bm x}_i; {\bm \theta})) = [y_i - f({\bm x}_i; {\bm \theta})]^2 L(yi,f(xi;θ))=[yi−f(xi;θ)]2

从直觉上理解，平方损失函数只考虑预测值与实际观测值之间误差的大小，不考虑其正负。但由于经过平方运算，与实际观测值偏差较大的预测值会比偏差较小的预测值受到更严重的惩罚。平方损失函数具有良好的数学性质------连续、可微分且为凸函数，是机器学习回归任务中最常用的一种损失函数，也称为 L 2 L_2 L2损失函数。

当模型输出预测值与实际观测值之间的误差服从高斯分布的假设成立时，最小化均方误差损失函数与极大似然估计本质上是一致的，在此情形下（如回归任务），均方误差损失函数是最优的选择。

（3）绝对损失函数

绝对损失函数（Absolute Loss Function）是模型输出的预测值与实际观测值之差的绝对值，其数学表达式为：
L ( y i , f ( x i ; θ ) ) = ∣ y i − f ( x i ; θ ) ∣ L(y_i, f({\bm x}_i; {\bm \theta})) = |y_i - f({\bm x}_i; {\bm \theta})| L(yi,f(xi;θ))=∣yi−f(xi;θ)∣

绝对损失函数也称为 L 1 L_1 L1损失函数。与平方损失函数类似，绝对损失函数也只考虑预测值与实际观测值之间误差的大小，不考虑其正负。所不同的是，由于绝对损失与绝对误差之间是线性关系，平方损失与误差之间是平方关系，当误差非常大的时候，平方损失会远大于绝对损失。因此，当样本中出现一个误差非常大的离群样本（Outlier）时，平方损失会产生一个非常大的损失，对模型的训练会产生较大的影响。所以，与平方损失函数相比，绝对损失函数对于离群样本更加鲁棒，即不易受到离群样本的影响。

另一方面，当使用梯度下降算法时，平方损失函数的梯度为 [ y i − f ( x i ; θ ) ] [y_i - f({\bm x}_i; {\bm \theta})] [yi−f(xi;θ)]，而绝对损失函数的梯度为 ± 1 \pm 1 ±1，即平方损失函数的梯度的幅度会随误差大小变化，而绝对损失函数的梯度的幅度则一直保持为 1，即便在绝对误差 ∣ y i − f ( x i ; θ ) ∣ |y_i - f({\bm x}_i; {\bm \theta})| ∣yi−f(xi;θ)∣很小时，绝对损失函数的梯度的幅度也同样为 1，这实际上是非常不利于模型的训练的。当然，也可以通过在训练过程中动态调整学习率来缓解这个问题，但是总的来说，平方损失函数通常比绝对损失函数可以更快地收敛。

（4）对数损失函数

其定义为：
L ( y i , f ( x i ; θ ) ) = − log ⁡ P ( y i ∣ x i ) L(y_i, f({\bm x}_i; {\bm \theta})) = -\log P(y_i \mid {\bm x}_i) L(yi,f(xi;θ))=−logP(yi∣xi)

对数损失函数（Logarithmic Loss Function）或负对数似然损失函数（Negative Log Likelihood Loss Function）源于极大似然估计的思想------极大化对数似然函数，而通常习惯于最小化损失函数，因此将它转变为最小化负对数似然函数。取对数是为了方便计算极大似然估计，因为在极大似然估计中，直接求导比较困难，所以通常都是先取对数再求导寻找极值点。 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi∣xi)是指当前模型对于输入样本 x i {\bm x}_i xi的预测值为 y i y_i yi的概率，即预测正确的概率。因为对数函数是单调递增的，所以在公式中加上负号之后，表示预测正确的概率越高，其损失函数值越小，即最大化 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi∣xi)等价于最小化损失函数。对数损失函数通常用于逻辑斯谛回归（Logistic Regression）模型的推导中。

（5）交叉熵损失函数

交叉熵（Cross Entropy）是 Shannon 信息论中一个重要概念，用于衡量同一个随机变量中的两个不同概率分布的差异程度。假设一个样本集中有两个概率分布 p p p和 q q q，其中 p p p表示真实概率分布， q q q表示非真实概率分布。假如，按照真实概率分布 p p p来衡量表示一个样本所需要的编码长度的期望为：
H ( p ) = − ∑ i p i log ⁡ p i H(p) = -\sum_{i} p_i \log p_i H(p)=−i∑pilogpi

但是，如果按照非真实概率分布 q q q来衡量表示服从真实概率分布 p p p的一个样本所需要的平均编码长度，则应该是：
H ( p , q ) = − ∑ i p i log ⁡ q i H(p, q) = -\sum_{i} p_i \log q_i H(p,q)=−i∑pilogqi

此时将 H ( p , q ) H(p, q) H(p,q)称为交叉熵。

在机器学习中，交叉熵可作为损失函数。交叉熵损失函数（Cross-Entropy Loss Function）定义为：
L ( y i , f ( x i ; θ ) ) = − [ y i log ⁡ f ( x i ; θ ) + ( 1 − y i ) log ⁡ ( 1 − f ( x i ; θ ) ) ] L(y_i, f({\bm x}_i; {\bm \theta})) = -[y_i \log f({\bm x}_i; {\bm \theta}) + (1 - y_i) \log (1 - f({\bm x}_i; {\bm \theta}))] L(yi,f(xi;θ))=−[yilogf(xi;θ)+(1−yi)log(1−f(xi;θ))]

（6）合页损失函数

对于一个二分类的问题，数据集的标签取值是 { + 1 , − 1 } \{+1, -1\} {+1,−1}，预测值是一个连续型实数值函数，那么合页损失函数（Hinge Loss Function）的定义为：
L ( y i , f ( x i ; θ ) ) = max ⁡ ( 0 , 1 − y i f ( x i ; θ ) ) L(y_i, f({\bm x}_i; {\bm \theta})) = \max(0, 1 - y_i f({\bm x}_i; {\bm \theta})) L(yi,f(xi;θ))=max(0,1−yif(xi;θ))

在机器学习中，软间隔支持向量机（SVM）模型的原始最优化问题等价于最小化合页损失。只有当样本被正确分类且函数间隔大于 1 时，合页损失才等于 0；否则损失是 1 − y i f ( x i ; θ ) 1 - y_i f({\bm x}_i; {\bm \theta}) 1−yif(xi;θ)，只能大于 0。

除了上述几种损失函数外，还有其他针对特定任务的损失函数。总而言之，没有一个适合所有机器学习问题的损失函数，损失函数的设计是以能够更好地解决具体问题为目的的。针对特定问题选择损失函数涉及许多因素，例如所选机器学习模型的类型、是否易于计算导数以及训练样本集中离群样本所占比例等。

2. 期望风险

模型的输入 X {\bm X} X和输出 Y Y Y都可以看作是输入和输出联合空间的随机变量，服从联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y)，称损失函数在该联合概率分布上的期望为 期望风险 （Expected Risk），其数学表达式为：
R exp ⁡ ( θ ) = E ( X , Y ) ∼ P ( x , y ) [ L ( y , f ( x ; θ ) ) ] = ∫ L ( y , f ( x ; θ ) ) P ( x , y ) d x d y R_{\exp}({\bm \theta}) = E_{({\bm X}, Y) \sim P({\bm x}, y)}[L(y, f({\bm x}; {\bm \theta}))] = \int L(y, f({\bm x}; {\bm \theta})) P({\bm x}, y) \, {\rm d}{\bm x} {\rm d}y Rexp(θ)=E(X,Y)∼P(x,y)[L(y,f(x;θ))]=∫L(y,f(x;θ))P(x,y)dxdy

期望风险是损失函数的期望，用来度量平均意义下模型预测的性能好坏。

3. 经验风险

一个好的模型应当有较小的期望风险。机器学习的目标在于从假设空间中选取最优模型，而选取最优模型的准则是期望风险最小化。显然，要使期望风险 R exp ⁡ ( θ ) R_{\exp}({\bm \theta}) Rexp(θ)最小化，需要知道联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y)，在模式分类问题中，即必须已知先验概率和条件概率密度。但是，在实际的机器学习问题中，无法得知真实的联合概率分布函数，因此也没有办法直接计算期望风险。事实上，如果知道数据的联合概率分布 P ( x , y ) P({\bm x}, y) P(x,y)，可以直接利用贝叶斯公式求得条件概率 P ( y i ∣ x i ) P(y_i \mid {\bm x}_i) P(yi∣xi)，也没必要学习模型了。

然而，从另一个方面来看，可以利用训练样本集中的 N N N个观测样本近似地求出经验风险。给定一个训练样本数据集
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x i , y i ) , ⋯ , ( x N , y N ) } ， T = \{({\bm x}_1, y_1), ({\bm x}_2, y_2), \cdots, ({\bm x}_i, y_i), \cdots, ({\bm x}_N, y_N)\}， T={(x1,y1),(x2,y2),⋯,(xi,yi),⋯,(xN,yN)}，

很容易计算出模型的经验风险（Empirical Risk）或经验损失（Empirical Loss），即根据训练样本集的平均损失。

R emp ( θ ) = 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) R_{\text{emp}}({\bm \theta}) = \frac{1}{N} \sum_{i=1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) Remp(θ)=N1i=1∑NL(yi,f(xi;θ))

由于 R emp ( θ ) R_{\text{emp}}({\bm \theta}) Remp(θ)是用已知训练样本（即经验数据）定义的，因此称为经验风险。在假设空间、损失函数以及训练样本集确定的情况下，经验风险可以确定。根据大数定律，当训练样本集中的样本数量 N N N趋向于无穷大时，经验风险收敛于期望风险。这样，可用经验风险 R emp ( θ ) R_{\text{emp}}({\bm \theta}) Remp(θ)来逼近期望风险 R exp ⁡ ( θ ) R_{\exp}({\bm \theta}) Rexp(θ)。使得经验风险最小的模型是最优的模型，这是经验风险最小化（Empirical Risk Minimization, ERM）准则。按照经验风险最小化准则，求解模型的最优参数估计是求解如下的最优化问题：

θ ^ = arg ⁡ min ⁡ θ R emp ( θ ) = arg ⁡ min ⁡ θ 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) \hat{{\bm \theta}} = \arg \min_{{\bm \theta}} R_{\text{emp}}({\bm \theta}) = \arg \min_{{\bm \theta}} \frac{1}{N} \sum_{i=1}^{N} L(y_i, f({\bm x}_i; {\bm \theta})) θ^=argθminRemp(θ)=argθminN1i=1∑NL(yi,f(xi;θ))

4. 结构风险

当训练集中的样本数量足够大时，经验风险最小化（ERM）准则能保证有很好的效果，在现实中被广泛采用。例如，极大似然估计（Maximum Likelihood Estimation）是经验风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。然而，通常情况下，由于训练样本集中的样本数量是有限的，而且训练集中的样本数据包含了各种噪声，因此实际所用的训练集不能很好地反映样本数据的真实分布。在这种情况下，如果利用经验风险最小化准则，则会导致模型产生"过拟合"（Overfitting）现象。

导致"过拟合"发生的因素有很多，最主要的原因是训练样本数量不足以及模型过于复杂。为了解决这一问题，需要引入结构风险函数，即对经验风险函数进行矫正，即在经验风险上加上表示模型复杂度的正则（Regularization）项或惩罚（Penalty）项。在假设空间、损失函数以及训练样本集确定的情况下，结构风险函数定义为：
R str ( θ ) = 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) + λ R ( θ ) R_{\text{str}}({\bm \theta}) = \frac{1}{N} \sum_{i=1}^N L(y_i, f({\bm x}_i; {\bm \theta})) + \lambda R({\bm \theta}) Rstr(θ)=N1i=1∑NL(yi,f(xi;θ))+λR(θ)

式中， λ ( λ > 0 ) \lambda (\lambda > 0) λ(λ>0)为正则化系数，也称惩罚因子，用以权衡经验风险和模型复杂度，需要进行调优； R ( θ ) R({\bm \theta}) R(θ)代表模型函数的复杂度，是定义在假设空间上的泛函，简单来说是函数的函数。模型函数的复杂度越高， R ( θ ) R({\bm \theta}) R(θ)也越大。一般使用模型参数向量 θ {\bm \theta} θ的 L 2 L_2 L2范数或 L 1 L_1 L1范数来近似模型的复杂度。通过设置正则化系数 λ \lambda λ，来权衡经验风险和正则项，减小参数规模，达到模型简化的目的，从而使模型具有更好的泛化能力。因此，结构风险函数强制使模型的复杂度不应过高，这种学习准则（策略）称为结构风险最小化（Structural Risk Minimization, SRM）准则。正则化可以看成结构风险最小化的实现，是为了防止过拟合而提出来的策略。

结构风险小意味着经验风险小、模型复杂度低。结构风险小的模型通常对训练样本以及新的测试样本都有较好的预测性能。结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以按照结构风险最小化准则，求解模型的最优参数估计是求解如下的最优化问题：
θ ^ = arg ⁡ min ⁡ θ R str ( θ ) = arg ⁡ min ⁡ θ [ 1 N ∑ i = 1 N L ( y i , f ( x i ; θ ) ) + λ R ( θ ) ] \hat{{\bm \theta}} = \arg \min_{{\bm \theta}} R_{\text{str}}({\bm \theta}) = \arg \min_{{\bm \theta}} \left[ \frac{1}{N} \sum_{i=1}^N L(y_i, f({\bm x}_i; {\bm \theta})) + \lambda R({\bm \theta}) \right] θ^=argθminRstr(θ)=argθmin[N1i=1∑NL(yi,f(xi;θ))+λR(θ)]

优化算法

在获得了训练样本集、确定了假设空间以及选定了合适的学习准则之后，要根据准则（策略）从假设空间中选择最优模型，需要考虑用什么样的计算方法来求解模型参数估计。

机器学习模型的训练和学习的过程，实际上是求解最优化问题的过程。如果最优化问题存在显式的解析解，则这个最优化问题比较简单，可以求出它的闭式解。但是，如果不存在解析解，则需要通过数值计算的方法来不断逼近。在机器学习中，很多优化函数是凸函数，因此，如何高效地寻找到全局最优解，是一个值得研究的问题。

目前，常用的优化算法有梯度下降法（Gradient Descent, GD）、随机梯度下降法（Stochastic Gradient Descent, SGD）、批量梯度下降法（Mini-Batch Gradient Descent, MBGD）、牛顿法、拟牛顿法、坐标下降法等。