深度学习基础

幸运小新2024-02-29 20:16

深度学习基础

1.深度学习要解决的问题
2.深度学习应用领域
3.计算机视觉任务
4.视觉任务中遇到的问题
5.得分函数
6.损失函数的作用
7.前向传播整体流程
8.反向传播计算方式
9.神经网络整体架构
10.神经网络架构细节
11.神经元个数对结果的影响
12.正则化和激活函数
13.神经网络过拟合解决方法
14.卷积神经网络应用领域
15.卷积的作用
16.卷积特征值计算方法
17.得到特征图表示
18.步长与卷积核大小对结果的影响
19.边缘填充方法
20.特征图尺寸计算与参数共享
21.池化层的作用
22.整体网络架构
23.VGG网络架构
24.残差网络Resnet
25.感受野的作用
26.RNN网络架构解读
27.词向量模型通俗解释
28.模型整体架构
29.训练数据构建
30.CBOW和Skip-gram模型
31.负采样方案
32.简介与安装

1.深度学习要解决的问题

神经网络不应该称之为一种算法，而是当成特征提取的方法

深度学习就是去学什么样的特征是最合适的，有了特征之后，我们可以加其他东西，比如加LR（逻辑回归）做分类，或者传到SVM中...

深度学习解决的一个核心就是怎么样去提取特征

2.深度学习应用领域

医学领域

Ai换脸

3.计算机视觉任务

300表示高，100表示宽，3表示颜色通道，比如使用RGB三种颜色

4.视觉任务中遇到的问题

5.得分函数

w表示权重参数，起到决定性的作用

b表示偏置参数，起到一个微调的作用

6.损失函数的作用

3表示三个类别，4表示猫有四个像素点

每个像素点要有一个权重

权重有大有小，比如2.1比较大，表示在狗这个类别中，第三个像素点比较重要

这个权重矩阵是优化而来的

比如一开始我可以随机构建一个3*4的矩阵

我们的神经网络就是做一个任务，什么样的W适合当前的任务，我就去改变这个W

上面我们的得到的结果就是不好的，比如图片明明就是猫

得到的分却是负的

这里我们就需要一个评判标准来判断好还是不好

我们神经网络既可以做分类，也可以做回归

唯一的区别就在于整个损失函数是怎么定义的

网络结构是不会变的，做不同的任务就是损失函数不同而已

损失函数，我们希望它越低越好，为0的时候代表没有损失

这里的+1表示我们的一个容忍程度

损失函数用来衡量当前权重参数，做完一个结果的意思

7.前向传播整体流程

A百分比产生过拟合，只关注一个局部

B则均匀分布到一个整体中

Lambda越大，表示不希望过拟合

Lambda小，表示意思意思，大概的消减一下变异

有输入数据x和权重参数w，通过得分函数f，得到了分值s

选择一个损失函数（hinge loss），加上正则化惩罚项，最后得到当前的损失L

说到底，最后就是得到一个得分

跟我们的分类任务还是有点差距，分类任务要得到的我们属于猫这个类的一个概率值

我们将一个猫输入其中，得到分值，比如cat是3.2，car是5.1

我们发现3.2和5.9之间的差异其实很小，我们要放大他们之间的一个差异

这里我们通过exp做一个映射，放大他们之间的差距

下面我们将其转换为概率值，做一个归一化

就是24.5/(24.5+164.0+0.18)=0.13

我们只考虑属于正确类别的概率值，我们希望当前输入的猫的概率越接近1越好

对于损失函数来说，概率值越接近1越没有损失，概率值越接近0损失越大（做的烂）

总结

输入一个数据，得到一个得分值，得分值做一个exp映射，使其更加明显一些

之后做一个归一化，归一化后用一个对数函数求他的损失

分类任务就由概率值去计算他的一个损失

回归任务就有得分值去计算一个损失

8.反向传播计算方式

9.神经网络整体架构

绿色是前向传播的值，红色是反向传播偏导的值

10.神经网络架构细节

Input layer有多少圈，代表我们的输入特征有多少个

比如一个人，有年龄age，体重w，身高h三个特征，有三个圈

一个图片由3072个像素点，有3072个特征，3072个圈

我们无论对数据做什么变换，都是为了让计算机更认识它

比如我们现在有三个特征年龄age，体重w，身高h，计算机可能不太认识他们

我们隐藏层1就将我们的三个特征变为四个特征，使计算机更认识这个数据

这里1就表示为age * 0.1 + w * 0.2 +h * 0.3 ， 2、3、4类推

这里的0.1、0.2、0.3并没有什么实际的含义，只是一个数值

输入层和隐藏层之间的线就是我们的权重参数W1

输入层就是输入数据，batch就是我们一次训练多少数据，一次去迭代几个数据

如果我们指定batch为1，就一个数据一个数据玩

比如我们的输入层是一个1 * 3表示一个样本三个特征

W1就是一个3 * 4的权重参数矩阵，W2类似

到隐藏层2后，我们认为这里作为特征已经足够了，当前我们就使用隐藏层2最终得到的特征得到一个输出结果，我们看一下得到预测结果最终等于多少

我们的神经网络得到的结果好还是不好就是看这里的W1、W2、W3

我们这里不能用一个W4代替W1W2W3

因为我们在W1 * W2和W2 * W3之间还要做一个非线性变换（我们找一个非线性函数做映射）

比如我们这边使用非线性函数max

11.神经元个数对结果的影响

一般情况下，神经元个数越多，得到的过拟合风险越大

神经多的时候，运行速度相对比较慢

神经元越多对其约束就越大在可视化图像中能更好的把正确结果分离出来但太多就会导致过拟合现象

https://cs.stanford.edu/people/karpathy/convnetjs/demo/classify2d.html

可以进行可视化展示的一个神经网络

12.正则化和激活函数

处罚力度越小，越符合训练集的结果

神经元越大，过拟合的风险越大

Sigmoid函数现在不用了，因为在参数较大或者较小时，梯度难以计算，

约等于0（梯度消失）

13.神经网络过拟合解决方法

拿到数据后不能直接输入到神经网络中，要做一个标准化的操作

将数据变到一个中心化（每一个数据的实际坐标值减去均值，得到以圆点为中心对称的结果）

接着就进行数据各个维度的放缩或者扩充（除上它的标准差），

调节神经网络中，最好不要让不同的权重参数差异过大

我们希望权重参数尽可能稳定一些

我们将初始化后的结果*0.01后

得到的初始化后的结果也都比较小

在神经网络训练的阶段中，在每一层杀死一部分神经元

画×的表示这一次的前向传播和反向传播就不带你玩了，保持原来的参数不变

参与的哪些去更新，去变化

这个×是在每一次训练中随机选择的

这里的drop-out相当于一个比例，比如说50%

指在这一次训练中，有一半的神经元是不参与到训练中的

测试阶段是没有必要的

14.卷积神经网络应用领域

15.卷积的作用

二维到三维

我们输入的数据

比如一个图片，我们在NN中输入的就是784个像素点

在CNN中我们就是输入一个原始的图像28 * 28 * 1

卷积是提取特征，池化是压缩特征

全连接层通过一组权重参数将输入层和隐藏层连接在一起

全连接层（fully connected layers，FC）在整个卷积神经网络中起到"分类器"的作用。如果说卷积层、池化层和激活函数等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将学到的"分布式特征表示"。映射到样本标记空间的作用。

这里我们还是找到最好的权重矩阵W1使我们特征提取的效果最好

绿色就是特征图，图中的数据就是我们特征提取的一个结果

16.卷积特征值计算方法

RGB三颜色通道 3232 3 3分为3部分；每个颜色通道分别作计算；

最终把每个通道的卷积结果累加

上面实际上只是演示了一个通道，例如B通道

实际上我们要演示一个三通道的，我们要将三个通道的值分别加在一起

filter的前两个值表示每3 * 3的区域就要选出来作为一个特征（卷积核），

也可以选其其它大小的区域，比如4 * 4

但是最后一个值必须是一致的

17.得到特征图表示

得到的特征图不一定只有一个

只要我的f不同，我就会得到不同的特征图

f1得到第1张图，f2得到第2张图，相当于两种不同的特征提取方法

output Volume就是我们特征图的个数

18.步长与卷积核大小对结果的影响

在图像任务中

卷积核一般为3 * 3或者4 * 4

19.边缘填充方法

在得到最后的特征图过程中

越往边界的点，被应用的次数越少

越往中间的点，被应用的次数越多

在边界外面加一圈0，原本是的边界点就不是边界点，被利用的次数更多了，在一定程度上弥补了边界信息缺失的问题

一般情况下，我们都是添加一圈

在文本中，我们一般是这样的

比如一个文本是100个词，另一个文本是120个词

卷积核个数就是我们在算的过程中要得到多少个特征图

20.特征图尺寸计算与参数共享

公式

即32怎么到28的，怎么到24的

对于每一个位置都是选择了相同的卷积核

21.池化层的作用

将每个位置中最大的值选出来就可以了（在神经网络中，得到一个比较大的值说明这个值比较重要，因为权重参数是在不断改变的）

除了最大池化，还有平均池化等方法

最大池化比平局池化效果要好很多

22.整体网络架构

一般我们最后得到是一个立体的特征图，比如32 * 32 * 10

那么我们如何将它转换成概率用于分类任务呢

我们前面的卷积和池化只是做特征提取，我们想要得到一个结果还是得靠全连接层（FC）

我们要将特征图拉成一个特征向量，长度就是32 * 32 * 10 = 10240

我最终在全连接层最终得到的结果就是[10240,5]

相当于将我这个10240个特征转换为我5个类别的概率值

所以在最后的POOL层与FC层之间，还有一个将特征拉长的操作

上面是一个7层神经网络（只有带参数的，我才称之为一层）

23.VGG网络架构

24.残差网络Resnet

我们建议将Resnet当成一个特征提取的网络，而不是一个分类网络

因为一个问题是分类还是回归，决定于损失函数，还有最后的层是如何连接的

Resnet当成一个特征提取可以运用到各种各样的任务中，物体检测、检索、分类、识别

25.感受野的作用

在卷积神经网络中,感受野(Receptive Field)是指特征图上的某个点能看到的输入图像的区域,即特征图上的点是由输入图像中感受野大小区域的计算得到的。

因为77的卷积一次是5 5再卷是33再卷是1 1，所以是三个

26.RNN网络架构解读

前一个时刻训练出的中间结果特征，也会对后一个时刻产生影响

第一步先将我们的输入数据通过Word2vec模型转换为3维向量，并且按照时间顺序从前到后进行排列，之后训练模型

RNN网络会将之前看到的所有单词完全记下来，记的太多就会产生误差和错误

LSTM中我们的解决方案就是使其忘记一些特征

LSTM是在RNN基础上进行改进的，加上一个C参数控制单元，控制当前的模型复杂度

27.词向量模型通俗解释

我们一般使用50维带300维来表示一个单词

用向量表示一个词后

我们就可以使用相似度度量的方法来探索哪些词是相近的

28.模型整体架构

上面就是50维表示一个单词

那么我们如何训练一个词向量

类似于神经网络中多分类任务，后面接了一个softmax层

比如我们语料库中有100个词，哪个词的可能性是最高的

如果我们输入A、B，则我们希望C词的概率是最高的

那我们输入数据如何构建

因为我们的输入是一个词，但我们的词不能往神经网络中输入

我们要到语料库的大表中进行词的向量的查找

我们语料库的大表是随机进行一个初始化的操作

在神经网络中，前向传播去计算一个损失函数

反向传输根据损失函数更新权重参数

在word2vec模型中，有一个比较特别，不仅会更新神经网络的权重，输入也会一起更新

我们一开始的语料库是随机初始化的

每一层训练都会更新我们的语料库

29.训练数据构建

30.CBOW和Skip-gram模型

模型有两种方案可以选择，Gensim工具包

有时候我们的语料库很大，比如有5w个，这时我们进行softmax分类，工作量太大了，那么我们如何进行改进呢

训练过程跟神经网络差不多，通过前向传播我们得到损失函数，在损失函数中去计算一下error值，根据error值去计算我们的反向传播一步步该如何走，权重参数如何更新。有一点比较特殊的是我们不仅要更新权重参数，也要更新我们的输入数据

我们现在是通过A去预测B

但B的可能性太多了，因为语料库中可能有10w个词，B这边就可能是10w分类

我们将A和B都当成我们的输入，标签我们自己写，我们希望的target标签应该是1，希望神经网络预测出来的结果跟1越接近越好

31.负采样方案

我们需要自己额外添加target为0的标签

默认负采样参数为5

sigmoid二分类任务

神经网络迭代更新完成，每个词的词向量都训练好了，词向量模型即训练好了

Word2vec词向量模型的目的：得到每一个词的向量表示

32.简介与安装

Keras相当于把TensorFlow中一些复杂的API，封装成简单、便捷的形式，底层还是TensorFlow的内容

上一篇：什么是大数据分析？大数据分析要学什么？

下一篇：C#的Winform程序关于单击和双击的区别 - 开源研究系列文章

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 032025最新国内服务器可用docker源仓库地址大全（2025年8月更新）04【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）05KGG转MP3工具|非KGM文件|解密音频 06全球最强模型Grok4，国内已可免费使用！（附教程）07TRAE Rules 实践：为项目配置 6A 工作流 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 10GPT-5 使用限制与国内升级全攻略（免费 / Plus / Pro）【2025 最新】