机器学习课程day01 机器学习概述

一、机器学习简述

2.ML机器学习是AI的子集，与其他计算机科学的最大不同在于以往的程序员基于规则编程，但是自然界还有好多规则描述不清楚的，如猫狗图像的识别与分类，如自然语言处理，机器学习让机器自动学习，而不是基于规则的编程（不依赖特定规则编程）

3.DL深度学习是机器学习的子集也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物。

二、机器学习的应用与发展史

典型应用场景 CV即计算机视觉和NLP自然语言处理

发展史三起两落，AI三要素数据、算法、算力

三、基本术语

1、样本：一行数据就是一个样本

2、数据集：多个样本组成数据集

3、特征、一列数据就是一个特征，有时候也称属性

4、标签：模型要预测的那一列

5、数据集可划分两部分：训练集、测试集比例：8 : 2，7 : 3
训练集(training set) ：用来训练模型（model）的数据集
测试集(testing set)：用来测试模型的数据集

四机器学习分类

有监督学习：输入数据有标签（又可根据输出值连续还是离散分为回归和分类）

无监督学习：输入数据无标签一般为聚类

五、机器学习建模流程

1、获取数据 2、数据预处理（缺失值处理、异常值处理等）3、特征工程（特征提取，特征预处理、特征降维等）4、模型训练 5、模型评估 6、模型预测

一般数据预处理和特征工程最耗时

六、欠拟合与过拟合

欠拟合：模型在训练集上表现很差、在测试集表现也很差

原因：模型过于简单

过拟合：模型在训练集上表现很好、在测试集表现很差

原因：模型太过于复杂、数据不纯、训练数据太少

泛化：模型在新数据集（非训练数据）上的表现好坏的能力