机器学习深度学习基础速成

目录

机器学习

一、概念

1、无监督学习(降维、聚类):

2、监督学习(分类、回归):

3、强化学习:

二、数据集分类、特征工程与特征缩放

[三、代 价 函 数(cost function)](#三、代 价 函 数(cost function))

四、梯度下降算法

五、过拟合与欠拟合

六、SVM支持向量机

七、决策树与随机森林

八、性能指标

深度学习(神经网络)

神经元、层、激活函数

卷积神经网络(CNN)

[一、CNN的三大核心操作:卷积 池化 全连接](#一、CNN的三大核心操作:卷积 池化 全连接)

二、CNN的完整流程(以识别猫为例)

循环神经网络(RNN))

一、RNN的定义

二、RNN的局限性

[三、LSTM 长短时记忆网络 与 GRU门控机制](#三、LSTM 长短时记忆网络 与 GRU门控机制)

Transformer

GAN生成对抗网络

NLP(自然语言处理)

[BERT 的核心特点](#BERT 的核心特点)

其他补充

deepseek

云计算

大数据

迁移学习


简答提问(串知识):机器学习是什么?深度学习是什么?两者有什么区别联系?

1、机器学习 是人工智能的子领域,核心是通过算法在数据中发现规律 ,依赖人工提取特征,适合结构化数据。机器学习无监督学习监督学习强化学习

( 其中,无监督学习 是指不给标签,让计算机自己在数据中发现规律,比如聚类K-means,降维PCA主成分分析法、SVD分解;监督学习 是给定标签和数据,预测结果,比如房价预测、判断是否下雨;强化学习是通过智能体与环境交互试错,最大化积累奖励)

2、深度学习 是机器学习的分支,基于多层神经网络自动提取特征 ,适合非结构化的数据,比如图像、语音。和传统机器学习相比,深度学习可以解决更复杂的问题。深度学习有CNN 卷积神经网络、RNN 循环神经网络、Transform

(其中,卷积神经网络特点是卷积、池化、全连接,构建输入层、隐藏层、输出层。卷积是通过卷积核在数据上移动计算特征图,池化是保留关键特征,就像是把高清图片压缩成缩略图,全连接是根据前面的特征组合起来,输出结果。)

(循环神经网络能很好地处理序列数据,序列数据指数据有顺序性,比如可以根据前后语境预测结果,输入"今天是晴天,天气怎么样",RNN会回答天气真好。但是循环神经网络面临着梯度爆炸/消失的问题,由此又产生了LSTM和GRU门控)

机器学习与深度学习没有绝对的优劣,依赖于具体问题具体分析,根据实际应用场景选择


机器学习

一、概念

1、无监督学习(降维、聚类)

没有标签,让计算机自己寻找数据规律,并分类

  • 聚类 (物以类聚,分类)

一句话概括就是把特征相同、类似的分为一类,物以类聚

举例:把客户分成 高消费客户、普通客户、潜在客户

**k---means聚类:**随机选几个点作为质心,把数据点按"距离最近"分成K组,哪个点离中心近,就归为哪一类。例: 把一群人(数据)分成很多组,哪个人离组长(中心)近,则归为这个组(分类)

  • 降维 (提取关键信息,降维)

PVA------主成分分析法

找方向:找到数据变化最大的几个方向(主成分)

转坐标:把数据转到这些新方向上。

砍维度:只保留最重要的几个方向,剩下的扔掉。

总结PVA:找数据变化最大的方向建坐标轴,把其他数据转到新方向上,这样实现了降维的效果,压缩数据只保留最关键的东西。缺点:对异常值敏感

SVD------奇异值分解

由3个矩阵组成,左奇异矩阵、奇异值矩阵、右奇异矩阵的转置

2、监督学习(分类、回归)

输入数据+标签,用模型预测结果

  • 分类 01问题,下雨/不下雨
  • 回归 如房价预测
3、强化学习

强化学习是一种 让智能体通过与环境不断交互,学习最优决策策略的一种方法

比如说阿尔法狗下围棋,通过试错最大化积累奖励

回答关键词:让智能体与周边环境交互试错,寻找最优策略,最大化积累奖励

马尔可夫决策过程(Markov Decision Process, MDP)

**核心要素:**状态集合、动作集合、转移概率、奖励机制

通过贝尔曼方程找最优策略,获得最大化积累奖励


二、数据集分类、特征工程与特征缩放

1、训练集、验证集、测试集:

  • 训练集:用来训练模型,训练集的数据用来直接参与模型的学习过程,使模型尽可能贴合数据
  • 验证集:用于模型的选择和超参数的调整
  • 测试集:评估模型的泛化能力,像"考场",看模型在实际应用中效果怎样

划分这些的目的是防止过拟合提高模型泛化能力 (黑体的这俩词记住了)

(补充参数与超参数:参数是通过训练数据得到的,超参数比如学习率、权重是自己设定的。 超参数的调整方法:网格搜索------把预定的超参数都试一遍,选最优的)

2、特征工程: 通过对数据清洗、变换、构造 ,将原始数据转征,核心目标是提升模 化为更适合机器学习模型的高质量特型泛化能力 (一般目标都是这个,照着答"泛化能力")

3、特征缩放: 统一特征的范围 ,避免量纲差异大,提升模型训练的效率,比如标准化、归一化

(提问,为什么要归一化和标准化,有什么作用?目的是统一特征的范围 ,避免量纲差异大,提升模型训练的效率)

  • 标准化

比如基于距离的模型(KNN、SVM、K-Means)

补充KNN与K-Means的区别:

KNN属于监督学习,类别是已知的。具体实现:找距离最近的k个样本点,看这k个点中概率最高的类别作为预测的类别。

K-means属于非监督学习,事先不知道数据会分为几类,通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。

  • 归一化:

适合固定输出范围的数据。比如树模型(决策树、随机森林、XGBoost)

特征处理:

离散特征处理(标签编码、频数编码、独热编码创建二进制向量........)

连续特征处理(标准化、归一化、取对数.......)

4、其他补充

结构化数据(有固定格式,比如excel)

非结构化数据(图像、音频)

鲁棒性:面对异常值仍能保持稳定性

交叉验证:适合数据量小的情况,合理划分训练集、验证集,比如K折交叉验证,留一交叉验证

标签不平衡问题

标签不平衡主要指的是某个类别的样本相较于其他样本 特别多/特别少,可能会影响预测结果

focal loss (通过调整损失函数让模型更关注难以分类的样本,适合极端不平衡的场景)

过采样(数据量不够,所以需要过采样,需要增加数据量,最简单直接的办法就是复制样本,或者SMOTE方法插值)

欠采样(数据量太多,减少些样本量,随机删除/聚类保留重要信息)

**数据增强操作:**对现有数据样本进行一系列变换来生成新样本,比如针对图像(旋转裁剪压缩),文本(同义词替换)


三、代 价 函 数 (cost function)

衡量模型预测与y实际真实值之间的差异 (整体所有样本误差的平均)

(平方代价函数------输出为连续的场景)

(交叉熵代价函数------分类问题)

其中h(x)代表预测值,y代表真实值

要想预测越准确→让误差越小→代价函数越小,因此我们要找代价函数最小值

如何最小化代价函数?

梯度下降算法------看下回分解


四、梯度下降算法

梯度下降:通过最小化代价函数来计算出w和b参数值

,其中代价函数为

对代价函数求完偏导并代入到式子中得到:

其中: 可理解成 wx+b 里面的 b

是w,由于w与x相乘,求w的偏导,x视为常数,故上式最后乘了x

具体可参考这个文章,关于梯度下降算法写的很细

梯度下降算法原理讲解------机器学习-CSDN博客

补充:Adam算法也可求代价函数最小值,区别是Adam自适应自动找学习率,效率更高

学习率的选择

  • 学习率过大:在最优解附近震荡、发散,错过最优解

  • 学习率过小:收敛慢、效率不高

要么设定学习率,要么使用Adam自适应学习率,优化方向------添加L1/L2正则化防止过拟合

优化器optimizer

通过调整模型参数,找到让损失函数最小化的最优路径,比如Adam


五、过拟合与欠拟合

过拟合:拟合效果过于贴合原始数据,在测试集表现不理想,模型泛化能力不强

欠拟合:拟合效果不好,不能很好适应训练集

高方差过拟合,高偏差欠拟合

过拟合的原因:

模型过于复杂、数据量小、数据噪声大(异常值)

怎么解决过拟合?(正则化、早停法)

1、增加数据量

2、交叉验证 :适合数据量小的情况,合理划分训练集、验证集

3、早停法 :当模型在验证集上的性能开始下降之前停止训练

**4、正则化:**保留所有的特征,但是减少参数λ的大小

第一个式子是线性回归的正则化,第二个是逻辑回归的正则化

(这里有两种常见正则化,一种是加 | w | , 这叫 L1正则化 。另一种是加w的平方 ,上面式子举例就是加w的平方,叫 L2正则化

其中,参数λ(lambda)的作用:

  • λ大:惩罚力度大 → 模型更简单(可能欠拟合)。

  • λ小:惩罚力度小 → 模型更复杂(可能过拟合)。

  • λ=0:关闭正则化 → 变回普通模型。

正则化就像给模型戴个"紧箍咒",让它别学得太复杂,从而更好地适应新数据

岭回归 是 L2 正则化的一个实例,专门用于线性回归模型,通过引入 L2 惩罚项优化参数。


六、SVM支持向量机

SVM(Support Vector Machine, SVM) 是支持向量机,一种监督学习模型

缺点:适合小批量样本数据,数据量大的场景下不适用

**核心目标:**找最大间隔分界面,尽可能把两类数据分开

支持向量的位置直接决定了超平面的位置,支持向量是边界上的样本点

**SVM的应用场景 :**文本分类、图像识别、预测房价、股票趋势。


七、决策树与随机森林

决策树是像树一样的监督模型,可以用来回归或分类

决策树:选择特征------>递归生成子树------>剪枝优化

决策树选择特征:

  • 信息增益:选择使信息不确定性减少最多的特征。

  • 基尼系数:选择使数据纯度提升最大的特征。

剪枝优化(防止过拟合):

  • 预剪枝:提前终止分裂
  • 后剪枝:在生成树之后再处理

随机森林 由多个决策树组成,**每棵树用随机数据和随机特征训练(**怎么避免过拟合?特征随机性),最后投票决定结果。随机森林通过集体智慧提高稳定性

随机森林提供综合多个树的结果,减小了预测的不稳定性

集成学习

通过结合多个模型结果,减少单个模型的偏差

  • Bagging:并行训练多个模型,对结果取平均或投票(比如随机森林)
  • Boosting:顺序训练多个模型,每个模型尝试修正前一个模型的错误
  • Stacking:通过训练元模型Meta-Model来组合多个基模型

八、性能指标

1、分类任务

  • 准确率(Accuracy)

    公式:Accuracy = 正确预测数 / 总样本数

    特点:适用于类别均衡的场景,对类别不平衡数据不敏感(如99%负样本时,全预测负类准确率99%,但无意义)。

  • 精确率(Precision)

    含义:预测为正类的样本中,实际为正类的比例。

    适用场景:关注减少误报(如垃圾邮件检测,避免将正常邮件误判为垃圾)。

  • 召回率(Recall,灵敏度 Sensitivity)

    含义:实际为正类的样本中,被正确预测的比例。

    适用场景:关注减少漏报(如癌症筛查,避免漏诊)。

  • F1分数(F1-Score)

    特点:精确率和召回率的调和平均,平衡两者,适用于类别不平衡数据。

恭喜你完成机器学习入门!现在开始深度学习吧!


深度学习(神经网络)

神经网络如何"学习"?

  1. 试错:输入一张猫图 → 网络预测"是狗" → 比对真实标签"猫" → 发现错了。

  2. 调整参数 :通过反向传播算法,从后往前逐层调整权重 w 和偏置 b。

  3. 目标:让预测结果越来越接近正确答案(最小化损失函数)。

类比:就像学画画,一开始画猫像狗,老师指出错误后,你逐渐修正线条和颜色,越画越像。

右上角方括号代表第几次,右下角代表该层的第几个神经元对应的参数

神经元、层、激活函数

1. 神经元(Neuron)

  • 功能:接收输入信号,决定是否"激活"(传递信号)。

  • 数学公式

w是权重,b是偏置(类似"门槛",控制激活难易度)

2. 层级结构(Layer)

  • 输入层:接收原始数据

  • 隐藏层:负责提取特征(低级特征→高级特征)。例如:第一层识别边缘,第二层识别眼睛,第三层识别整个猫脸。

  • 输出层:给出最终结果

3. 激活函数(Activation Function)

  • 作用 :引入"非线性判断能力"。如果没有激活函数,无论有多少层,神经网络都只能表示线性变换的组合

  • 常用函数

    • Sigmoid :适用于01分类问题,输出概率(0~1),,通常用于最后的输出层

    • Linear:结果可为正,可为负,g(z) = z

    • ReLU:结果只为正数(负数归零,正数保留),g(z) = max(0 , z)

(补充思考:为什么用这些激活函数能引入非线性判断能力?它们表达式明明看起来很简单,尤其是RELU,为什么隐藏层广泛使用relu?

答:虽然relu本身是分段线性函数,但是通过多个隐藏层的组合,可以逼近非线性,试验1000次relu确实可以实现非线性,并且relu可以缓解梯度消失,计算高效,只需比较是否非负,然后输出即可。问就是自己实践过,老师爱动手的孩子)

  • 一对多的分类(用softmax)

比如天气预测:晴天、阴天、雨天

Softmax回归算法:逻辑回归的推广,可解决多分类问题

左右类比一下,a1代表模型是1 的概率估计,那么右边aj就代表模型结果是j的概率估计

Softmax 函数性质:输出值都在(0,1)区间内,且输出的所有概率值之和为 1,保证了所有类别概率的完整性和归一性

常见的神经网络:

1、全连接神经网络,有三种基本类型的层:输入层、隐藏层和输出层。

2、卷积神经网络CNN,卷积池化全连接

3、循环神经网络LSTM,Transformer,都可以处理序列数据。由于RNN因为梯度消失处理长序列数据不理想,Transformer基于注意力机制而且可以并行处理,能很好地处理长序列数据,注意力机制是模仿人脑思考动态分配权重,选择性关注重要信息

4、GAN对抗神经网络,生成器对抗器不断彼此训练,最终达到生成器数据"以假乱真"的目的

5、GNN图神经网络,处理非欧几里得的图结构数据(无固定维度和空间),比如社交圈、用户喜好推荐


卷积神经网络(CNN)

全称:Convolutional Neural Network (CNN)

核心思想:模仿人类视觉,逐层提取特征(从简单到复杂)

**主要用于:**图像识别、医学影像分析、自动驾驶、人脸识别等

解决传统神经网络参数量大的问题

一、CNN的三大核心操作:卷积 池化 全连接

卷积(抓特征)→ 池化(压缩)→ 全连接(分类)

1. 卷积------提取局部特征

  • 工具:卷积核(也叫滤波器,一个小矩阵)。

  • 操作 :卷积核在图像上滑动,计算每个位置的加权和,生成特征图

  • 直观比喻:想象你用手电筒(卷积核)扫描一张照片,手电筒照到的每个小区域会被检测是否有某种特征(比如垂直线条)。

2. 池化------压缩信息,保留关键特征

  • 目的:减少数据量,同时保持特征不变。比如把高清图缩小成缩略图,但保留最明显的特征

  • 常用方法:最大池化(Max Pooling),取局部区域内的最大值。

3. 全连接层(Fully Connected Layer)------最终分类

  • 作用:将前面提取的抽象特征组合起来,输出分类结果(比如"猫"的概率是90%)。

  • 类比:就像人类看到"尖耳朵、胡须、圆眼睛"这些特征后,大脑判断这是一只猫。


二、CNN的完整流程(以识别猫为例)

卷积(抓特征)→ 池化(压缩)→ 全连接(分类)又来重复一遍 记住没

多个卷积层和池化层 层层组合

  1. 输入层:原始图片(比如224×224像素的RGB图像)。

  2. 卷积层1:用多个卷积核扫描图片,提取低级特征(如边缘、颜色)。

  3. 池化层1:压缩特征图,减少计算量。

  4. 卷积层2:组合低级特征,检测更复杂的结构(如猫的耳朵轮廓)。

  5. 池化层2:进一步压缩。

  6. 全连接层:将所有特征综合,输出概率("猫:90%","狗:5%"...)。


循环神经网络(RNN)

前言:为什么出现RNN?

---------传统的神经网络处理大量数据时效率低,尤其在处理序列数据方面表现差,没有"记忆功能"。RNN全称 Recurrent Neural Network

一、RNN的定义

RNN 是一种专门处理序列数据 的神经网络模型,其核心思想是通过循环连接,使网络能够记忆历史信息,从而捕捉序列中的时序依赖关系

(补充:什么是序列数据------数据有顺序性,前后关联性强)

关键特点

  • 输入数据具有顺序性(如时间序列、自然语言)。

  • 每个时间步的隐藏状态传递历史信息,影响当前输出。

示例:RNN会根据已生成的单词(如"今天天气")预测下一个词(如"晴朗"),保持上下文连贯


二、RNN的局限性

梯度消失 / 爆炸 远 距 离 依 赖 无 法 有 效 学 习

**当序列较长时,早期信息难以传递到后期,**梯度消失/爆炸 远距离依赖无法有效学习。

为什么会有梯度爆炸 / 消失? ------------激活函数选择不对 / 初始权重过大,根源是反向传播的链式法则造成的

改进方案

  • LSTM(长短时记忆网络)
    通过"门控机制"(输入门、遗忘门、输出门)选择性地保留或丢弃信息。
  • GRU(门控循环单元)
    LSTM的简化版,合并部分门控单元,减少计算量。

三、LSTM 长短时记忆网络 与 GRU门控机制

LSTM------选择性记忆重要东西

通过引入门控机制细胞状态 ,增强了对长序列数据的处理能力

**门控机制:**遗忘门、输入门、输出门

GRU 是LSTM的变体,合并 遗忘门输入门更新门,简化运算

隐藏状态直接作为输出,无单独细胞状态


Transformer

Transformer 是一种 基于自注意力机制 的深度学习模型框架,通过 并行计算全局建模,解决了传统RNN梯度消失的问题

自注意力机制是模拟人脑选择性关注重要信息,动态分配权重 (比如"一只猫躺在毯子上,它睡着了"。出现了两个名词"猫"和"毯子",但这里的"它睡着了",我们自然会觉得是猫)

通过自注意力机制来捕捉序列数据中的长距离依赖关系

用的softmax函数

多头注意力的作用是什么?

答:多个注意力头可以 捕捉不同特征,增强模型表达能力

位置编码的作用?

答:自注意力本身不考虑序列顺序,位置编码通过为每个位置添加唯一向量,让模型感知词序信息。


GAN生成对抗网络

GAN全称生成对抗网络,由生成器和判别器组成。生成器生成假数据,判别器判断真假,两者对抗训练,最终生成器能生成以假乱真的数据,判别器无法区分真假

GAN的优势在于无需显式建模数据分布,但存在模式崩溃、训练稳定性的问题,可以通过改进训练技巧来优化性能


NLP(自然语言处理)

NLP全称 Natural Language Processing,让计算机理解、生成人类语言,比如用于智能客服系统、语言翻译、情感分析等领域

传统方法:比如通过词频统计捕捉语义关系

深度学习方法

  • 词嵌入(Word2Vec、GloVe) → 将词映射为语义向量

  • 序列模型(RNN、LSTM) → 处理文本的时序依赖

  • Transformer与预训练模型(BERT、GPT) → 预训练模型指"预训练+微调"。BERT是基于Transformer的预训练语言模型,能够根据上下文语境调整词义解读,提高了自然语言处理的效率

补充bert

BERT是基于Transformer的预训练语言模型。它的核心目标是通过双向语境学习文本的深层语义表示,从而提升各种文本处理任务的效果。

BERT 的核心特点

  1. 双向 Transformer 架构

    传统模型(如 Word2Vec、GPT)仅从单向语境(如从左到右)学习语义,而 BERT 通过双向注意力机制同时捕捉上下文信息(例如 "苹果" 在 "我买了一个苹果" 和 "苹果公司发布了新产品" 中的不同含义)。

  2. 预训练 + 微调模式:

    • 预训练:先在通用大规模数据集上训练基础模型(如 ResNet、BERT)学习通用特征
    • 微调 :通过少量标注数据调整模型参数,大幅降低迁移成本。
  3. 深层语义理解

    通过多层 Transformer(如 BERT-base 有 12 层,BERT-large 有 24 层),捕捉词汇、句子、段落的多层次语义关联。


其他补充

deepseek

用到哪些技术?

多头潜在注意力、多Token预测(利用上下文信息提高准确性)、Transformer.......(答前面的深度学习模型,肯定用到了它们,展开说就好)

云计算

按量付费的模式,提供基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)

公有云、私有云、混合云

大数据

大数据特点:数据量大、数据多样性、价值密度低(有价值的信息比例不高)、数据更新快

迁移学习

用已有经验解决新问题,复用已有知识

相关推荐
d3y12 小时前
机器学习之策略梯度
人工智能·机器学习·策略梯度·policy gradient
希潭实验室2 小时前
第136篇:美国NSA的苹果手机“三角测量“后门的窃密模块分析 | 机器学习引擎识别照片信息
人工智能·机器学习·智能手机
call me Mike2 小时前
双重机器学习之因果推断 | CATE条件平均处理效应估计:五大方法原理详解与模拟数据实战(python版)
人工智能·机器学习
绝不原创的飞龙2 小时前
使用机器学习和数学预测美国 GDP
人工智能·机器学习
Zero2 小时前
机器学习微积分--(1)核心思想
人工智能·算法·机器学习
competes2 小时前
学生需求 交易累计积分,积分兑换奖品
java·大数据·开发语言·人工智能·java-ee
大势智慧2 小时前
使用低空大师进行无人机巡查一段时间后,如何确定重点整治区域?
人工智能·ai·无人机·实景三维·低空经济·事件预警
小小数媒成员2 小时前
Shader中的光照模型
人工智能·计算机视觉
忧郁的橙子.2 小时前
12-大模型压缩预训练、知识蒸馏
人工智能·量化·模型蒸馏