背景

随着 LLM 的快速发展，越来越多的工程师多多少少会接触到一些机器学习的相关知识。

本系列将会由浅入深的介绍，机器学习的入门知识。

感谢，李沐老师的斯坦福课程《实用机器学习》 ，

主要还是站在巨人的肩膀上，快速了解这个方向的一些必要知识。
前言：上一篇，我们讲到了机器学习数据方面的知识，今天我们来聊一聊模型训练的重要学习方法：监督学习。

机器学习里常见算法：

一些基本概念：

模型（Model）：
给定输入，输出预测。

Eg：内容理解：文章内容 -> 文章标签

损失函数（Loss）：

模型预测出来的结果，与真实的结果，怎么去计算他们的差别。

其值越小，代表模型预测结果越接近实际结果。在训练模型时，需要通过不断调整模型参数来最小化损失函数的值。

常见的损失函数包括均方误差、交叉熵等。
目标函数（Objective Function）：目标函数是数学中用来衡量模型优劣的一个函数，常出现在最优化问题中。

它是描述"最优化问题"的核心，表示要优化的参数与目标之间的关系。在机器学习中，目标函数通常用来帮助模型优化并找到最佳的模型参数，以使模型在给定数据集上达到最佳的性能，比如最小化误差、最大化准确率等。
优化（Optimization）：简单来说就是调参。把模型里可以学习的参数，在使用中找到最佳值。

优化目标函数，使训练集里算出的损失函数最小。
过拟合（overfitting）：

模型在训练数据集上表现得过于优秀，以至于它几乎"记住"了训练数据的所有细节。即模型过于复杂，以至于它已经学习到了训练数据的一些特定的噪声和异常，而在新的、未见过的数据上的表现很差。（理解能力/泛化能力差）

举例：一个学生，死记硬背历年真题，考历年原题时满分，但考新试卷时分数不理想。

欠拟合（underfitting）：

模型不能在训练集上获得足够低的误差。即模型复杂度低，模型在训练集上表现较差，无法学习到数据背后的规律。

泛化误差\训练误差	低	高
低	Normal，很理想	有 Bug？看代码
高	过拟合（Overfitting）（训练集可能太细化）	欠拟合（underfitting）（没有理解信息）

因此，一般模型的复杂程度，要与数据的复杂程度相匹配。

简单的数据 => 简单的模型

复杂的数据 => 复杂的模型

以此，来解决相对泛化的误差。

模型复杂程度：一般来说，越训练越复杂。

简单模型/复杂模型：

数据复杂度：
- 样本数量，以及样本的元素（20x20，100x100，1k x 1k）
- 有无特殊结构，空间/时间。
- 多样性大，数据复杂。

监督学习（Supervised Learning）

监督学习是工业界最常见 的学习方法。

确定标号，在已打标的数据基础上，训练出一个模型。这个模型的任务就是给数据预测标号。

不同场景下，监督学习模型的选择：

决策树（Decision Trees）

树形结构：可决策，可回归。

优势：

可解释性好，可回归。常常用于银行/贷款/保险等等领域，面对客诉，可找到决策的原因。
方便处理"数值"和"类别"上的特征。

劣势：

不稳定，因为是不断分裂产生的树。如果上层节点的数据里有噪音，对下层结构影响比较大。解决办法：集成学习（后面会详细介绍）。
数据复杂时，容易产生复杂的树。造成过拟合（模型在训练数据上表现得过于优秀，以至于无法很好地泛化到未见过的测试数据或新的场景）。解决办法：
- 训练的时候，遇到过拟合，停下来，让叶子节点不继续分裂。
- 不停，先生成完整的树，对树进行剪枝、正则化等策略。
树结构不太好并行，部署线上后，性能吃亏。

因为树结构不稳定，因此决策树进行了升级，变成多棵树，也就是下面要介绍的"随机森林"。

*随机森林（Random Forest）

由众多决策树组成的一种集成学习方法，输出是对问题最佳答案的共识。随机森林可用于分类或回归。

森林很好理解，就是多棵决策树。

那么，"随机" 又是怎么随机的？

"训练集"随机（类比到 MySQL，就是随机抽行，可重复，每棵树可能抽到同样的行）
"特征"随机（类比到 MySQL，就是随机抽列，不可重复，每棵树不能一次抽同个特征列）

就是在抽取训练集/特征 的时候，随机的抽，让每棵树拿到的训练集&特征集合尽可能都不一样。

导致，每个树的预测结果也会产生差异。

比如：

分类场景，随机抽整列特征，训练出多个决策树，进行投票。
回归场景，对每个树的结果求和，取平均数。

*梯度提升决策树（GBDT，Gradient Boosting Decision Trees）

一种迭代的决策树算法，由多棵决策树组成。每棵树都试图纠正前一棵树的错误。默认情况下，梯度提升决策树中没有随机化，而是用到了强预剪枝。

GBDT 的两个核心是"决策树"和"梯度提升"：

决策树：GBDT使用的是回归决策树，每个叶子节点都对应一个预测值。
梯度提升：在每一轮迭代中，新的决策树的生成是为了减小上一轮迭代产生的预测误差。这个过程就像在函数的误差曲线上沿着负梯度方向下降，逐步逼近函数的最小值。

简单来说，梯度提升采用连续的方式构造树，每棵树都试图纠正前一棵树的错误。

GBDT 在许多实际问题中都有非常好的表现，包括搜索排名、CTR预估等等。

决策树-小结：

决策树/随机森林/梯度提升决策树，在能用的情况下，往往是工业界的第一选择。

首先，树比较简单，不用太多的调参。

其次，结果还不错，虽然不是最优解，但是能快速达到上线水平（比较重要）。

线性模型（Linear Methods）

基本算法

w 代表权重，x 代表特征，b 代表偏移。

其中 "权重w" 和 "偏移b" 是可以调整的参数。

那么怎么找到每个特征最佳的权重w，以及偏移b 呢？

目标函数（Objective Function）

回归场景：

X 是训练样本，有 N 个。每一个 Xi 是一个长度为 P 的向量。

做转至NxP，变成一个矩阵（N 行 P 列）。

Y 代表真实数值，也是有 N 个。

目标：

减少平均均方误差（MSE）指每个样本的平均平方损失。MSE是反映估计量与被估计量之间差异度的一种度量。

L：目标函数，w**,b** 是期望求解的最优值。X/Y是训练参数。可以学习参数的 w（权重）和 b（偏移）

每一个样本上：Y是真实数值，<xi,w> + b 代表模型的预测，两者相减求绝对值，再求平方。

再把所有样本加起来，做求和，再平均。

分类场景：

输出变向量，向量的长度就是类别的个数。向量里的每一个值代表，对应每个类别的概率（置信度）。值越高代表这个类别的概率越高，同理，越低代表这个类别的概率越低。

X 代表每个特征，wi 代表每个特征的预测全中，再加上偏移量 b。这样就得到每个样本基于每个特征的概率的 O 向量。

Label y 代表真实的值，当某个样本确定是某第 i 个分类下时，为 1（有点像独热编码）

求平均均方误差：O向量 - 真实标签

预测时，属于分类就是每个特征概率最大的那个值。

这样带来的问题？

因为是对每个分类的预测结果都做平方误差，导致学习成本比较高。

相当于要求模型在正确分类的得分要接近 1，不正确的分类得分要趋近 0。

其实，只要让我们的模型关心正确的那个分类的得分足够大即可，其他分类不太关心

软最大化回归（Softmax Regression）

将 1 ~ m 个向量 O（存了每个特征的概率）丢进 Softmax 这个操作子，得到一个 y^ ，y^还是一个向量。

y^ = 向量O算指数/所有O 向量的指数，导致所有 1 ~ m 个所有 y^ 加起来 = 1。

y => 是真实的预测结果，类似独热编码，只有一个 1，其他都是 0。

对 y^和 y 做交叉熵，让模型使 H（y，y^） = - log y^ y 足够小 => 就能让模型预测正确的那个分类只够大。

*小批量随机梯度下降（SGD，Mini-batch Stochastic gradient descent）

一种优化神经网络模型的算法。它在每一次迭代时不是将整个训练集作为一个批次进行更新，而是将训练集分成若干个小批次（mini-batch），每次只更新一个小批次的数据。

这样做可以减少计算量，节省训练时间。

同时，它也可以在一定程度上避免梯度更新的方向产生过大的波动，从而使得训练过程更加稳定。

W 是模型的参数，把偏移 b（批量大小）写进向量，Nt 就是学习率。

随机取 W1，

反复增加 t，直到模型收敛（收敛就是目标函数在某个样本里的平均损失不再下降，趋向平衡）。

随机采样N个样本，这个样本的大小等于批量大小 b。

新权重 Wt+1 = 旧权重 Wt - Nt 学习率 * 目标函数L的导数。

优势：

大部分的机器学习问题都可以用 SGD 来求最优解（除了决策树）。

劣势：

超参数 b，Nt 需要选择，比较难找。

核方法（Kernel Machines）

一种基于核函数的非线性机器学习方法。

在这种方法中，原始数据被映射到高维空间中，并且在高维空间中使用线性方法进行分类或回归。由于非线性特征空间的复杂性，可以使用核函数在原始空间中计算点积，从而大大简化了计算复杂度。

在机器学习任务中，包括支持向量机(SVM)和核岭回归(KRR)等方法都使用了核方法。