也是结束数据分析,来到了机器学习的阶段了,第一张概述对这个阶段的所有内容做个简单了解
人工智能概述
什么是人工智能?
Artificial Intelligence(AI)
是一个研究领域,像人一样、机器智能的综合与分析
研究目标:使用计算机来模拟或者代替人类
机器学习
Machine Learning(ML)
从数据中获取规律;来了一个新数据,产生一个新预测;
这个规律就是模型,可有理解成y = kx+b
深度学习
Deep Learning(DL)
深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
三者间的关系
机器学习是实现人工智能的一种途径
深度学习是机器学习的一种方法

学习方式
基于规则的学习
程序员根据经验利用手工的if-else方式进行预测

有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音识别和自然语言处理
于是引出了:
基于模型的学习
从数据中自动学出规律

举个例子:

1 利用线性关系来模拟面积和房价之间的关系
让直线尽可能多的经过这些点,不能经过的点分布直线两侧
2 机器学习模型
直线记成y = ax + b 就是模型,其中 a、b 就是我们要训练的模型参数
机器学习的应用领域和发展史
应用领域
计算机视觉****CV:对人看到的东西进行理解
自然语言处理:对人交流的东西进行理解
数据挖掘和数据分析:也属于人工智能的范畴
发展史
•1956年人工智能元年
•2012年计算机视觉深度神经网络方法研究兴起
•2017年自然语言处理应用大幕拉开
•2022年chatGPT的出现,引起AIGC的发展
人工智能发展三要素
•数据,算法,算力
CPU:主要适合I\O密集型的任务
GPU:主要适合计算密集型任务
TPU:专门针对大型网络训练而设计的一款处理器
机器学习常用术语
样本、特征、标签

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
特征(feature) :一列数据一个特征,有时也被称为属性
标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资
就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系
特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息 eg:房价预测、车图片识别
数据集划分

数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3(一般都是这个比例)
训练集(training set) :用来训练模型(model)的数据集
测试集(testing set):用来测试模型的数据集

机器学习的算法分类
有监督学习
定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
数据集:需要标注数据的标签/目标值
有监督分类问题&回归问题
分类问题
目标值(标签值)是不连续的
分类种类:二分类、多分类

回归问题
目标值(标签值)是连续的

无监督学习
定义:输入数据没有被标记,即样本数据类别未知,没有标签,
根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。
特点:1 训练数据无标签
2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习
工作原理:
1 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
2 再利用该模型去套用未标记的数据
3 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高
半监督学习方式可大幅降低标记成本
强化学习
1 强化学习(Reinforcement Learning):机器学习的一个重要分支
2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景
3 基本原理:通过构建四个要素:agent,环境状态,行动,奖励,
agent根据环境状态进行行动获得最多的累计奖励。

举个例子:
•无人驾驶汽车通过摄像头、雷达、激光测距仪、传感器等对环境进行观测,获取到丰富的环境信息,然后通过深度强化学习模型中的CNN、RNN等对环境信息进行处理、抽象和转化,在结合强化学习算法框架预测出最应该执行的动作(是加速、减速、转向等),来实现自动驾驶
•当然,无人驾驶汽车每次执行的动作,都会让它到目的地的路程更短,即每次行动都会有相应奖励。
总结


机器学习建模流程
1 获取数据
获取经验数据
图像数据
文本数据
.......
2 数据基本处理
数据缺失值处理
异常值处理
3 特征工程
特征提取
特征预处理
特征降维
......
4 机器学习(模型训练)
线性回归
逻辑回归
决策树
GBDT
5 模型评估
回归评测指标
分类评测指标
聚类评测指标

特征工程概念入门
特征的定义 Feature
特征是指事物或对象所具有的独特属性或标志,用于描述、区分或识别该事物。在数据分析、机器学习、统计学等领域,特征通常指数据集中的变量或维度,用于构建模型或进行分析
特征工程
利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
特征提取
从原始数据中提取与任务相关的特征
特征预处理
特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小
特征降维
将原始数据的维度降低,叫做特征降维
特征选择
原始数据特征很多,但是对模型训练相关是其中一个特征集合子集
特征组合
多个的特征合并成一个特征。一般利用乘法或加法来完成
模型拟合问题
拟合指通过调整模型参数,使模型输出尽可能接近真实数据的过程。在机器学习中,模型通过训练数据学习规律,目标是泛化到未知数据。
欠拟合(Underfitting)
模型过于简单,无法捕捉数据中的基本模式。表现包括训练集和测试集误差均较高。常见原因:
- 模型复杂度不足(如线性模型拟合非线性数据)
- 特征不足或未充分训练
解决方法:
增加模型复杂度(如更高阶多项式、更深神经网络)
引入更多有效特征或延长训练时间

过拟合(Overfitting)
模型过度依赖训练数据细节(如噪声),导致泛化能力差。表现包括训练误差低但测试误差高。常见原因:
- 模型复杂度过高
- 训练数据量不足或噪声过多
解决方法:
使用正则化(L1/L2正则化)
增加数据量或数据增强
采用早停(Early Stopping)、Dropout(神经网络)
交叉验证选择最佳模型
泛化 Generalization :模型在新数据集(非训练数据)上的表现好坏的能力。
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取
机器学习的开发环境
基于Python的 scikit-learn 库
1.简单高效的数据挖掘和数据分析工具
2.可供大家使用,可在各种环境中重复使用
3.建立在NumPy,SciPy和matplotlib上
4.开源,可商业使用-获取BSD许可证