机器学习基本概念

机器学习两种范式

有监督学习和无监督学习是机器学习中比较核心的两种范式。有监督和无监督的区别在于对于训练的数据是否有"标签"，以及最终学习的目标是什么。

对于有监督的学习，训练的数据是有标签的，换句话说，训练的数据是有原始数据和结果数据的，在训练的过程中，机器学习通过找到原始数据和结果数据之前内在规律和联系，形成一个模型，用于后续的新数据的计算，

对于无监督的学习，训练的数据是无标签的，即只有原始数据，在机器学习过程中，自己发现这些数据之间的规律，然后形成一个模型，用于后续的数据计算。

由此，可以形成有监督学习和无监督学习之间的对比关系表：

对比项	有监督学习	无监督学习
训练数据	带标签(输入数据+正确答案)	无标签（只有输入数据）
学习目标	预测结果或分类	发现隐藏的规律或模式
反馈机制	模型通过对比预测结果和真实答案来修正误差	没有直接反馈，算法自行寻找数据内在联系
典型任务	分类或回归	聚类，降维，关联规则
场景	垃圾邮件识别，房价预测	客户细分，推荐系统，异常检测

监督式学习

在该范式下，在给算法提供数据集的时候，不仅仅提供输入数据，还要提供输入数据相对应的结果（或答案）。这样，在机器学习过程中，相应的算法会找到输入数据和相应的答案之间的映射关系形成算法模型。以此新的数据进来的时候，可以通过该模型找到的对应关系，计算出相应的预测输出。

监督式学习主要任务类型

分类：预测数据属于那个类别。
回归：预测一系列数据的数值。

监督式学习常用算法

复制代码

线性回归，逻辑回归，决策树，支持向量机，神经网络

非监督式学习

在该范式下，输入的数据没有标签，算法需要自己在输入的数据中找出数据内部的结构或规律，或者是寻找数据之间的相似性。

非监督式学习主要任务类型

聚类：把相似的数据归为一组。
关联规则学习：发现数据项之间的关系。
降维：保留数据的主要特征，减少数据的无关或微关特征，用户数据可视化，降噪或去噪。
异常检测：识别出不符合常规模式的数据点。

非监督式学习的常用算法

复制代码

K-均值聚类、主成分分析、Aprioi算法

过拟合(overfitting)和欠拟合(underfitting)

在机器学习中，较为常见的两个问题便是过拟合和欠拟合。无论是过拟合还是欠拟合，最终机器学习后的模型都是无法达到预期的。

机器学习最终的期望结果就是，不会出现过拟合，也不会出现欠拟合，寻找到一个"刚刚好"的模型，该模型既能理解训练数据中的核心规律，又不会被其中的噪声和特例所干扰。

噪声：在机器学习中的一个概念，顾名思义，按照正常噪声的概念映射到机器学习中，噪声即为在机器学习中为机器学习造成干扰的数据或特征。在机器学习中，噪声分为两类：

特征噪声(Feature Noise)：指在机器学习中输入的数据有错误数据或干扰数据。例如：音乐中有背景杂音，传感器采集的数据不准等。

标签噪声(Label Noise)：指数据在标注的时候，被标注错误了。例如，表对一张图片进行标注的时候，标出的"汽车"被标记为"路人"等。

欠拟合

欠拟合的表现就是训练之后的模型在训练数据和测试数据中的表现都不好。出现这种情况的原因便是模型简单，复杂度不足，无法捕获数据中复杂的关系和模式。这种情况通常也被称为"高偏差(High Bias)"。

欠拟合常见原因

模型太弱：用了简单的线性模型去拟合一个复杂的非线性模型。
特征太少：输入给模型的特征值太少，例如只告诉模型"有四条腿"来识别猫，这种特征让模型很难给出准确的答案。
训练不足：训练时间太短或学习效率太低，模型还未收敛到最优状态。
正则化过强：为了防止过拟合而施加的正则化惩罚太重，反而限制了模型的学习能力。

由此，可以根据相应的原因解决影响的欠拟合问题。

过拟合

过拟合的表现便是模型在训练数据中表现良好，但是在测试数据中表现不佳。

出现过拟合的根本原因在于模型大复杂，在模型训练过程中，不仅仅学到了数据中的普遍规律，同时还把数据中的噪声，异常数据等无关数据也当成了规律学习了下来。这种情况通常也被成为高方差(High Variance)。

过拟合常见原因

模型太复杂：模型参数过多，结构过于复杂，拥有"死记硬背"的能力。
训练数据太少：数据量不足，模型很容易把所有样本都"背"下来。
训练过度：训练时间太长，模型开始过度拟合训练数据中的细节。
数据噪声大：训练数据中包含大量错误或无关信息，模型被误导。

同样也可以根据相应的原因解决过拟合问题。