一、机器学习概述

一、概念

1、人工智能

2、机器学习

[3、深度学习(DL, Deep Learning)](#3、深度学习(DL, Deep Learning))

一、概念

1、人工智能

Artificial Intelligence

人工智能（AI）是一门研究智能行为计算主体的合成与分析的学科。

人工智能（AI）旨在通过计算机模拟并辅助（或：替代）人类大脑的功能。

2、机器学习

一门让计算机无需被明确编程，就能自主获得学习能力的研究领域。

3、深度学习(DL, Deep Learning)

也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

三者关系：机器学习是实现人工智能的一种途径，深度学习是机器学习的一种方法

二、机器学习

1、基于规则的学习

程序员根据经验利用手工的if-else方式进行预测

2、基于模型的学习

有很多问题无法明确的写下规则，此时我们无法使用规则学习的方式来解决这一类问题，比如：图像和语音识别和自然语言处理，从数据中自动学出规律

比如：房价预测

直线记成y = ax + b 就是模型，其中 a、b 就是我们要训练的模型参数，得到一个最佳的a和b，然后就可以用方程预测房价了。

3、样本与数据集

想要模型学习，必须要有收集的原始数据

样本(sample) ：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录

特征(feature) ：一列数据一个特征，有时也被称为属性

标签/目标(label/target) ：模型要预测的那一列数据

比如薪资表：

我们想用学科、考试成绩、学历、工作经验、工作地点作为条件x，预测就业薪资y。

首先需要收集已有的数据，一条条数据就是样本，学科、考试成绩、学历、工作经验、工作地点等条件就是特征，薪资就是要预测的目标

数据集可划分两部分：训练集、测试集比例：8 : 2，7 : 3

训练集(training set) ：用来训练模型（model）的数据集

测试集(testing set)：用来测试模型的数据集
x_train 训练集中的x，x_test 测试集中的x

y_train 训练集中的y，y_test 测试集中的y

4、有监督学习与无监督学习

有监督学习：有特征有标签，比如上面的薪资的例子

定义：输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的

数据集：需要标注数据的标签/目标值

无监督学习：无特征无标签，用于在不知道规律的数据中发掘出有用的信息

定义：输入数据没有被标记，即样本数据类别未知，没有标签，根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。

比如下面的例子，通过机器学习，自己发掘规律

5、有监督的分类问题与回归问题

分类问题，目标值（标签值）是不连续的，有二分类，多分类等。比如我们把薪资水平分为三类，0：低水平，1：中水平，2：高水平:0,1,2之间只是代表类别，通过预测得到的结果落在0,1,2之内，不会出现新的值。

回归问题：还是以薪资为例，我们不进行分类，而是记录每个人的薪资金额，通过预测他们的薪资，会得到一个具体的值，这个值是连续的。

6、机器学习建模流程

获取数据：搜集与完成机器学习任务相关的数据集

数据基本处理**：**数据集中异常值,缺失值的处理等

特征工程：对数据特征进行提取、转成向量，让模型达到最好的效果

机器学习(模型训练)：选择合适的算法对模型进行训练

根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学习,强化学习

模型评估：评估效果好上线服务,评估效果不好则重复上述步骤

7、模型表现效果

拟合：用来表示模型对样本分布点的模拟情况

欠拟合：模型在训练集上表现很差、在测试集表现也很差，是欠拟合

过拟合：模型在训练集上表现很好、在测试集表现很差，是过拟合

原因：

欠拟合产生的原因：模型过于简单

过拟合产的原因：模型太过于复杂、数据不纯、训练数据太少