机器学习概述

也是结束数据分析，来到了机器学习的阶段了，第一张概述对这个阶段的所有内容做个简单了解

人工智能概述

什么是人工智能？

Artificial Intelligence（AI）

是一个研究领域，像人一样、机器智能的综合与分析

研究目标：使用计算机来模拟或者代替人类

机器学习

Machine Learning（ML）

从数据中获取规律；来了一个新数据，产生一个新预测；

这个规律就是模型，可有理解成y = kx+b

深度学习

Deep Learning（DL）

深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

三者间的关系

机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法

学习方式

基于规则的学习

程序员根据经验利用手工的if-else方式进行预测

有很多问题无法明确的写下规则，此时我们无法使用规则学习的方式来解决这一类问题，比如：图像和语音识别和自然语言处理

于是引出了：

基于模型的学习

从数据中自动学出规律

举个例子：

1 利用线性关系来模拟面积和房价之间的关系

让直线尽可能多的经过这些点，不能经过的点分布直线两侧

2 机器学习模型

直线记成y = ax + b 就是模型，其中 a、b 就是我们要训练的模型参数

机器学习的应用领域和发展史

应用领域

计算机视觉****CV：对人看到的东西进行理解

自然语言处理：对人交流的东西进行理解

数据挖掘和数据分析：也属于人工智能的范畴

发展史

•1956年人工智能元年

•2012年计算机视觉深度神经网络方法研究兴起

•2017年自然语言处理应用大幕拉开

•2022年chatGPT的出现，引起AIGC的发展

人工智能发展三要素

•数据，算法，算力
CPU：主要适合I\O密集型的任务
GPU：主要适合计算密集型任务
TPU：专门针对大型网络训练而设计的一款处理器

机器学习常用术语

样本、特征、标签

样本(sample) ：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录

特征(feature) ：一列数据一个特征，有时也被称为属性

标签/目标(label/target) ：模型要预测的那一列数据。本场景是就业薪资

就业薪资与培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系

特征如何理解（重点）：特征是从数据中抽取出来的，对结果预测有用的信息 eg:房价预测、车图片识别

数据集划分

数据集可划分两部分：训练集、测试集比例：8 : 2，7 : 3（一般都是这个比例）

训练集(training set) ：用来训练模型（model）的数据集

测试集(testing set)：用来测试模型的数据集

机器学习的算法分类

有监督学习

定义：输入数据是由输入特征值和目标值所组成，即输入的训练数据有标签的
数据集：需要标注数据的标签/目标值

有监督分类问题&回归问题

分类问题

目标值（标签值）是不连续的
分类种类：二分类、多分类

回归问题

目标值（标签值）是连续的

无监督学习

定义：输入数据没有被标记，即样本数据类别未知，没有标签，

根据样本间的相似性，对样本集聚类，以发现事物内部结构及相互关系。

特点：1 训练数据无标签

2 根据样本间的相似性对样本集进行聚类，发现事物内部结构及相互关系

半监督学习

工作原理：

1 让专家标注少量数据，利用已经标记的数据（也就是带有类标签）训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比，从而对模型做进一步改善和提高

半监督学习方式可大幅降低标记成本

强化学习

1 强化学习（Reinforcement Learning）：机器学习的一个重要分支

2 应用场景：里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理：通过构建四个要素：agent，环境状态，行动，奖励，

agent根据环境状态进行行动获得最多的累计奖励。

举个例子:
•无人驾驶汽车通过摄像头、雷达、激光测距仪、传感器等对环境进行观测，获取到丰富的环境信息，然后通过深度强化学习模型中的CNN、RNN等对环境信息进行处理、抽象和转化，在结合强化学习算法框架预测出最应该执行的动作（是加速、减速、转向等），来实现自动驾驶
•当然，无人驾驶汽车每次执行的动作，都会让它到目的地的路程更短，即每次行动都会有相应奖励。

总结

机器学习建模流程

1 获取数据

获取经验数据

图像数据

文本数据

.......

2 数据基本处理

数据缺失值处理

异常值处理

3 特征工程

特征提取

特征预处理

特征降维

......

4 机器学习（模型训练）

线性回归

逻辑回归

决策树

GBDT

5 模型评估

回归评测指标

分类评测指标

聚类评测指标

特征工程概念入门

特征的定义 Feature

特征是指事物或对象所具有的独特属性或标志，用于描述、区分或识别该事物。在数据分析、机器学习、统计学等领域，特征通常指数据集中的变量或维度，用于构建模型或进行分析

特征工程
利用专业背景知识和技巧处理数据，让机器学习算法效果最好。这个过程就是特征工程
数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

特征提取

从原始数据中提取与任务相关的特征

特征预处理

特征对模型产生影响；因量纲问题，有些特征对模型影响大、有些影响小

特征降维

将原始数据的维度降低，叫做特征降维

特征选择

原始数据特征很多，但是对模型训练相关是其中一个特征集合子集

特征组合

多个的特征合并成一个特征。一般利用乘法或加法来完成

模型拟合问题

拟合指通过调整模型参数，使模型输出尽可能接近真实数据的过程。在机器学习中，模型通过训练数据学习规律，目标是泛化到未知数据。

欠拟合（Underfitting）

模型过于简单，无法捕捉数据中的基本模式。表现包括训练集和测试集误差均较高。常见原因：

模型复杂度不足（如线性模型拟合非线性数据）
特征不足或未充分训练

解决方法：

增加模型复杂度（如更高阶多项式、更深神经网络）

引入更多有效特征或延长训练时间

过拟合（Overfitting）

模型过度依赖训练数据细节（如噪声），导致泛化能力差。表现包括训练误差低但测试误差高。常见原因：

模型复杂度过高
训练数据量不足或噪声过多

解决方法：

使用正则化（L1/L2正则化）

增加数据量或数据增强

采用早停（Early Stopping）、Dropout（神经网络）

交叉验证选择最佳模型

泛化 Generalization ：模型在新数据集（非训练数据）上的表现好坏的能力。
奥卡姆剃刀原则：给定两个具有相同泛化误差的模型，较简单的模型比较复杂的模型更可取

机器学习的开发环境

基于Python的 scikit-learn 库

1.简单高效的数据挖掘和数据分析工具
2.可供大家使用，可在各种环境中重复使用
3.建立在NumPy，SciPy和matplotlib上
4.开源，可商业使用-获取BSD许可证