机器学习概述

也是结束数据分析,来到了机器学习的阶段了,第一张概述对这个阶段的所有内容做个简单了解

人工智能概述

什么是人工智能?

Artificial Intelligence(AI)

是一个研究领域,像人一样、机器智能的综合与分析

研究目标:使用计算机来模拟或者代替人类

机器学习

Machine Learning(ML)

从数据中获取规律;来了一个新数据,产生一个新预测;

这个规律就是模型,可有理解成y = kx+b

深度学习

Deep Learning(DL)

深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

三者间的关系

机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法

学习方式

基于规则的学习

程序员根据经验利用手工的if-else方式进行预测

有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音识别和自然语言处理

于是引出了:

基于模型的学习

从数据中自动学出规律

举个例子:

1 利用线性关系来模拟面积和房价之间的关系

让直线尽可能多的经过这些点,不能经过的点分布直线两侧

2 机器学习模型

直线记成y = ax + b 就是模型,其中 a、b 就是我们要训练的模型参数

机器学习的应用领域和发展史

应用领域

计算机视觉****CV:对人看到的东西进行理解

自然语言处理:对人交流的东西进行理解

数据挖掘和数据分析:也属于人工智能的范畴

发展史

•1956年人工智能元年

•2012年计算机视觉深度神经网络方法研究兴起

•2017年自然语言处理应用大幕拉开

•2022年chatGPT的出现,引起AIGC的发展

人工智能发展三要素

数据算法,算力
CPU:主要适合I\O密集型的任务
GPU:主要适合计算密集型任务
TPU:专门针对大型网络训练而设计的一款处理器

机器学习常用术语

样本、特征、标签

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) :一列数据一个特征,有时也被称为属性

标签/目标(label/target) :模型要预测的那一列数据。本场景是就业薪资

就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系

特征如何理解(重点):特征是从数据中抽取出来的,对结果预测有用的信息 eg:房价预测、车图片识别

数据集划分

数据集可划分两部分:训练集、测试集 比例:8 : 2,7 : 3(一般都是这个比例)

训练集(training set) :用来训练模型(model)的数据集

测试集(testing set):用来测试模型的数据集

机器学习的算法分类

有监督学习

定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
数据集:需要标注数据的标签/目标值

有监督分类问题&回归问题
分类问题

目标值(标签值)是不连续的
分类种类:二分类、多分类

回归问题

目标值(标签值)是连续的

无监督学习

定义:输入数据没有被标记,即样本数据类别未知,没有标签

根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。

特点:1 训练数据无标签

2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习

工作原理:

1 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高

半监督学习方式可大幅降低标记成本

强化学习

1 强化学习(Reinforcement Learning):机器学习的一个重要分支

2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:通过构建四个要素:agent,环境状态,行动,奖励,

agent根据环境状态进行行动获得最多的累计奖励。

举个例子:
•无人驾驶汽车通过摄像头、雷达、激光测距仪、传感器等对环境进行观测,获取到丰富的环境信息,然后通过深度强化学习模型中的CNN、RNN等对环境信息进行处理、抽象和转化,在结合强化学习算法框架预测出最应该执行的动作(是加速、减速、转向等),来实现自动驾驶
•当然,无人驾驶汽车每次执行的动作,都会让它到目的地的路程更短,即每次行动都会有相应奖励。

总结

机器学习建模流程

1 获取数据

获取经验数据

图像数据

文本数据

.......

2 数据基本处理

数据缺失值处理

异常值处理

3 特征工程

特征提取

特征预处理

特征降维

......

4 机器学习(模型训练)

线性回归

逻辑回归

决策树

GBDT

5 模型评估

回归评测指标

分类评测指标

聚类评测指标

特征工程概念入门

特征的定义 Feature

特征是指事物或对象所具有的独特属性或标志,用于描述、区分或识别该事物。在数据分析、机器学习、统计学等领域,特征通常指数据集中的变量或维度,用于构建模型或进行分析

特征工程
利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

特征提取

从原始数据中提取与任务相关的特征

特征预处理

特征对模型产生影响;因量纲问题,有些特征对模型影响大、有些影响小

特征降维

将原始数据的维度降低,叫做特征降维

特征选择

原始数据特征很多,但是对模型训练相关是其中一个特征集合子集

特征组合

多个的特征合并成一个特征。一般利用乘法或加法来完成

模型拟合问题

拟合指通过调整模型参数,使模型输出尽可能接近真实数据的过程。在机器学习中,模型通过训练数据学习规律,目标是泛化到未知数据。

欠拟合(Underfitting)

模型过于简单,无法捕捉数据中的基本模式。表现包括训练集和测试集误差均较高。常见原因:

  • 模型复杂度不足(如线性模型拟合非线性数据)
  • 特征不足或未充分训练

解决方法:

增加模型复杂度(如更高阶多项式、更深神经网络)

引入更多有效特征或延长训练时间

过拟合(Overfitting)

模型过度依赖训练数据细节(如噪声),导致泛化能力差。表现包括训练误差低但测试误差高。常见原因:

  • 模型复杂度过高
  • 训练数据量不足或噪声过多

解决方法:

使用正则化(L1/L2正则化)

增加数据量或数据增强

采用早停(Early Stopping)、Dropout(神经网络)

交叉验证选择最佳模型


泛化 Generalization :模型在新数据集(非训练数据)上的表现好坏的能力。
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

机器学习的开发环境

基于Python的 scikit-learn 库

1.简单高效的数据挖掘和数据分析工具
2.可供大家使用,可在各种环境中重复使用
3.建立在NumPy,SciPy和matplotlib上
4.开源,可商业使用-获取BSD许可证

相关推荐
可乐+冰01 小时前
Android 编写高斯模糊功能
android·人工智能·opencv
嘀咕博客2 小时前
SynClub-百度在海外推出的AI社交产品
人工智能·百度·ai工具
AI算法工程师Moxi2 小时前
什么是迁移学习(transfer learning)
人工智能·机器学习·迁移学习
空白到白3 小时前
机器学习-KNN算法
人工智能·算法·机器学习
love you joyfully3 小时前
循环神经网络——pytorch实现循环神经网络(RNN、GRU、LSTM)
人工智能·pytorch·rnn·深度学习·gru·循环神经网络
袁庭新3 小时前
AI如何辅助创业?年轻人一定要创业
人工智能·创业
GIS开发特训营4 小时前
【智慧城市】2025年中国地质大学(武汉)暑期实训优秀作品(2):智慧城市西安与一带一路
人工智能·信息可视化·智慧城市
飞哥数智坊4 小时前
扣子实战第19讲:Coze零代码打造“新生入学百事通”,辅导员都说好
人工智能·coze
上海控安4 小时前
上海控安:GB 44495-2024《汽车整车信息安全技术要求》标准解读和测试方案
大数据·人工智能·汽车