
一、机器学习简介
机器学习概念:
是实现人工智能的一种途径,核心是让计算机系统通过数据自动学习规律,并基于这些规律进行预测或决策。无需显式编程。
机器学习算法可分为:
有监督学习:有标签
无监督学习:无标签
半监督学习:部分有标签,其他无标签
强化学习:Agent(代理)+环境+奖励+反馈
1.有监督学习:有标签
回归算法:连续
①KNN:
K近邻,周围k个最近的邻居类别。物以类聚,人以群分。通过距离远近判断来归类
欧氏距离
②线性回归:
通过回归算法,构建线性方程拟合数据,
比如房价预测,
分类算法:离散
③逻辑回归:
线性回归+激活函数sigmoid+阈值判断来分类
既分类又回归
④决策树:
通过树形结构对数据进行分类,拟合数据,每一个树节点代表特征,叶子节点代表分类。

根据分裂依据不同分为:
ID3算法
C4.5算法
CART算法
⑤集成学习:
通过多个基学习器进行学习。
bagging思想:
装袋法:
它是通过基学习器并行训练
通过有放回采样(自助法+bootstrap)+
平权投票多次表决来
取基学习器里最好的来预测结果。

代表算法:
随机森林算法(RF)
Boosting思想:
提升法
它是通过多个基学习器学习串行训练,关注上一个学习器的不足,进行优化。再通过加权投票来预测结果。

代表算法:
AdaBoost
GBDT
XGBoost
⑥朴素贝叶斯
使用贝叶斯公式,基于概率
分类算法,通过线性回归+激活函数来构建方程拟合函数。
1.2无监督学习:无标签
聚类算法:根据样本相似度分类
K-means
1.3半监督学习:部分有标签,其他无标签
1.4强化学习:Agent(代理)+环境+奖励+反馈
二、核心概念及组件
机器学习
样本 --- 一行数据
特征 --- 一列数据
标签 --- 要预测的变量
数据集
**训练集:**训练模型的数据------训练阶段
验证集:验证模型的数据。验证模型性能 ---- 测试阶段
测试集:测试模型的数据,测试模型性能 ---- 测试阶段
三、
四、机器学习建模完整流程
1.获取数据
2.数据基本处理
3.特征功能


4.机器学习(模型训练)
5.评估模型
回归指标:MSE((真实值-预测值)^2)、MAE(|真实值-预测值|)
分类指标:准确率,召回率(预测的全不全),F1
聚类指标:轮廓系数
