机器学习概述（一）

一、机器学习概述

错误率：分类错误的样本数占总样本数的比例。
精度：1 - 错误率。
残差：实际预测输出与真实输出之间的差异。
训练误差：学习器在训练集上的误差。
泛化误差：学习器在新样本上的误差。
损失函数：衡量模型预测误差的大小。
欠拟合：模型未能很好地捕捉数据特征。
原因
- 模型复杂度过低：模型过于简单，无法捕捉数据中的复杂关系。例如，用线性模型去拟合非线性数据。
- 特征不足：输入的特征太少，或者特征与目标变量的相关性不强，导致模型无法学习到有效的规律。
- 训练时间不足：模型没有足够的时间学习数据中的规律。
过拟合：模型对训练数据学习过度，泛化能力差。
原因
- 模型复杂度过高：模型过于复杂，能够完美拟合训练数据中的每一个点，包括噪声。
- 训练数据不足：模型没有足够的数据来学习通用的规律，只能记住训练数据的细节。
- 特征过多：输入的特征过多，其中一些特征可能只是噪声，模型会学习到这些噪声特征。
处理方法：
- 过拟合：增加训练数据、降维、正则化、集成学习。
- 欠拟合：添加新特征、增加模型复杂度、减小正则化系数。

留出法：将数据集划分为训练集和测试集，通常比例为70%、30%。
交叉验证法：将数据集划分为k个子集，每次用k-1个子集作为训练集，剩下的一个子集作为测试集，进行k次训练和测试，返回k个测试结果的均值。
性能指标：
- TP（真正例）：将正类预测为正类的数量。
- FP（假正例）：将反类预测为正类的数量。
- TN（真反例）：将反类预测为反类的数量。
- FN（假反例）：将正类预测为反类的数量。
- 查准率（P）：TP / (TP + FP)。
- 查全率（R）：TP / (TP + FN)。
P-R 图：直观显示学习器的查全率和查准率，用于比较学习器性能。