机器学习算法入门------概念及发展史/核心概念及组件/分类算法实战

一、机器学习简介

机器学习概念：

是实现人工智能的一种途径，核心是让计算机系统通过数据自动学习规律，并基于这些规律进行预测或决策。无需显式编程。

机器学习算法可分为：

有监督学习：有标签

无监督学习：无标签

半监督学习：部分有标签，其他无标签

强化学习：Agent（代理）+环境+奖励+反馈

1.有监督学习：有标签

回归算法：连续

①KNN：

K近邻，周围k个最近的邻居类别。物以类聚，人以群分。通过距离远近判断来归类

欧氏距离

②线性回归：

通过回归算法，构建线性方程拟合数据，

比如房价预测，

分类算法：离散

③逻辑回归：

线性回归+激活函数sigmoid+阈值判断来分类

既分类又回归

④决策树：

通过树形结构对数据进行分类，拟合数据，每一个树节点代表特征，叶子节点代表分类。

根据分裂依据不同分为：

ID3算法

C4.5算法

CART算法

⑤集成学习：

通过多个基学习器进行学习。

bagging思想：

装袋法：

它是通过基学习器并行训练

通过有放回采样（自助法+bootstrap）+

平权投票多次表决来

取基学习器里最好的来预测结果。

代表算法：

随机森林算法（RF）

Boosting思想：

提升法

它是通过多个基学习器学习串行训练，关注上一个学习器的不足，进行优化。再通过加权投票来预测结果。

代表算法：

AdaBoost

GBDT

XGBoost

⑥朴素贝叶斯

使用贝叶斯公式，基于概率

分类算法，通过线性回归+激活函数来构建方程拟合函数。

1.2无监督学习：无标签

聚类算法：根据样本相似度分类

K-means

1.3半监督学习：部分有标签，其他无标签

1.4强化学习：Agent（代理）+环境+奖励+反馈

二、核心概念及组件

机器学习

样本 --- 一行数据

特征 --- 一列数据

标签 --- 要预测的变量

数据集

**训练集：**训练模型的数据------训练阶段

验证集：验证模型的数据。验证模型性能 ---- 测试阶段

测试集：测试模型的数据，测试模型性能 ---- 测试阶段

三、

四、机器学习建模完整流程

1.获取数据

2.数据基本处理

3.特征功能

4.机器学习（模型训练）

5.评估模型

回归指标：MSE（（真实值-预测值）^2）、MAE（|真实值-预测值|）

分类指标：准确率，召回率（预测的全不全），F1

聚类指标：轮廓系数