机器学习概述

人工智能三个重要概念
算法的学习方式
人工智能发展三要素
机器学习算法分类
机器学习建模流程（五大步）

人工智能三个重要概念

人工智能(AI )+机器学习(ML )+深度学习(DL )

通俗来说：机器学习是实现人工智能的一种途径，深度学习是机器学习的一种方法。

算法的学习方式

1.基于规则的学习：就是程序员制定并输入的预测规则

2.基于模型的学习：通过编写机器学习算法，让加器自己学习从数据中获得的规律（模型），然后进行预测

人工智能发展三要素

三要素：数据、算法、算力 。

1.数据：

决定了模型效果的上限。

常见术语：

样本：通俗来说一条数据就是一个样本；

特征/属性：通常是指一列数据即为一个特征；

标签/目标：模型需要预测的那一列数据；

数据集划分：训练集（训练模型）和测试集（测试模型），一般对应占比8：2或者7：3

【数据和特征决定了机器学习的上限】

2.算法：分类，回归，聚类...

3.算力：

CPU：主要适合I\O密集型的任务

GPU：主要适合计算密集型任务

TPU：专门针对大型网络训练而设计的一款处理器

机器学习算法分类

1.有监督学习

有特征有标签（结果驱动），出现两大问题是：分类任务（标签是离散的，函数输出有限个离散值）和回归任务（标签是连续的，函数输出连续的值）

2.无监督学习

有特征无标签（数据驱动），出现问题：聚类任务，降维任务，异常检测任务...聚类根据样本间的相似性对样本集体进行分类

3.半监督学习

有特征有部分标签，作用是降低标注成本，提升效率。举个例子：专家标记少量数据并利用其训练出一个模型，然后由大批量工作人员套用该模型进行标记数据，即可在短时间内获取大量结果。

4.强化学习

所需构建的四个要素：agent、环境、行动、奖励，其中agent会根据环境状态进行不断交互行动获得累计的奖励。举个例子：训练小狗按指令做动作，训练机器人学会下棋等等。

机器学习建模流程（五大步）

1.获取数据：根据任务获取所需的数据

2.数据基本处理：处理缺失值、异常值等等

3.特征工程：利用专业背景知识和技巧处理数据,让机器学习算法效果更好

子任务又分为五点：①特征提取：从原始数据中提取与任务相关的特征；②特征预处理：将不同的特征数据转换成同一尺度,同一分布内（即标准化，归一化）；③特征降维：将原始数据的维度降低；④特征选择：从特征中选择一些重要特征；⑤特征组合：把多个特征组合成一个特征。

4.模型训练：从特征数据中学习到规律，通常是决策函数或条件概率分布

5.模型评估：主要是模型拟合，拟合效果分为：欠拟合、过拟合和合理拟合。
欠拟合 ：模型在训练集上表现很差,在测试集上表现也很差。原因是模型过于简单，没有充分学习到规律。可以通过增加特征来解决欠拟合的问题；
过拟合 ：模型在训练集上表现很好,在测试集上表现很差。原因是模型过于复杂，数据不纯，训练数量太少。可以通过正则化、异常检测、特征降维等方法来解决过拟合的问题。

泛化：模型在新数据集上的表现好坏的能力。

奥卡姆剃刀原则：给定两个相同泛化误差的模型,较简单的模型比较复杂的模型更可取。