卷积神经网络 CNN

文章目录

一、卷积的概念
- 1.卷积
- 2.信号处理
- - (1)三大变换
  - (2)卷积与傅里叶变换的关系
- 3.深度学习中的卷积
- 4.卷积的应用
- - (1)图像分类、目标检测、语义分割
  - (2)卫星图
  - [(3)防复印技术 CWM、OWM](#(3)防复印技术 CWM、OWM)
二、卷积神经网络的概念
三、CNN类的神经网络
- 1.AlexNet (2012)
- 2.VGG (2014)
- 3.GoogLeNet (2014)
- 4.ResNet：残差网络，分类 (2015)
- 5.U-Net：分割 (2015)
- 6.MobileNet (2017)
- [7.R-CNN (2014)、Fast R-CNN (2015)、Faster R-CNN(2015)：目标检测](#7.R-CNN (2014)、Fast R-CNN (2015)、Faster R-CNN(2015)：目标检测)

一、卷积的概念

1.卷积

1.卷积的作用：

利用卷积核，可以改变输入信号。

通过调整卷积核，可以达到特定的信号改变的效果。

2.信号处理

(1)三大变换

拉普拉斯变换
傅里叶变换：与卷积是互通的
Z变换

(2)卷积与傅里叶变换的关系

高通滤波，低通滤波（例如音响设备的频响特性）

傅里叶变换和卷积存在数学上的对应关系，利用这个关系可以构造具备期望频率滤波特性的卷积核。

3.深度学习中的卷积

(1)二维卷积核

深度学习中的卷积核是二维的。

借用了卷积这个名词，但不是数学上严格意义的卷积。

1.翻转 (省去)

2.滑动

3.加权平均 (对应相乘再相加)

例如：3×3的卷积核：对应相乘再相加

(2)卷积与池化

(3)感受野

实现AI造脸

4.卷积的应用

(1)图像分类、目标检测、语义分割

YOLOv7 ：

(2)卫星图

卫星图：区分白色是海冰还是云

(3)防复印技术 CWM、OWM

二、卷积神经网络的概念

1.CNN的定义

卷积神经网络（Convolutional Neural Network，CNN）是一类深度学习模型，广泛应用于图像处理、计算机视觉、语音识别、自然语言处理等领域。

2.CNN的工作流程

CNN的工作流程：

①输入层 ：图像数据作为输入进入网络，通常是一个多维数组 (如RGB图像为高度 × 宽度 × 通道数)

②卷积层 ：应用卷积核进行局部特征提取，生成特征图。

③池化层 ：通过池化操作对特征图进行降维，减少计算量和特征图的尺寸。

④全连接层 ：将高层次的特征进行整合，输出最终的分类结果（如猫或狗）。

⑤输出层：网络的最终输出，通常是类别标签（如Softmax层输出的概率分布）。

3.CNN的应用

①检测任务

②分类与检索

③超分辨率重建 (SR，Super-resolution Reconstruction)

④医学任务：OCR

⑤自动驾驶 (无人驾驶、智能驾驶)

⑥人脸识别

4.CNN的相关概念

1.概念

卷积（Convolution）

①卷积核 ：size

②步长：stride >1，图像尺寸就会减小。

③填充：padding

填充(padding)是指在输入高和宽的两侧填充元素(通常是 0 元素)。为了避免卷积之后图片尺寸变小，通常会在图片的外围进行填充(padding)，如下图所示：

④channel：提高

填充可以增加输出的高和宽。这常用来使输出与输入具有相同的高和宽。

步幅可以减小输出的高和宽

2.CNN：随着网络深度增加(不停地Conv)，空间尺寸会变小，通道数channels会变大。

过拟合(overfitting)：模型太强大了，模型参数过多，数据不足。模型在训练集上表现非常好，但在验证集或测试集上的表现较差。

三、CNN类的神经网络

1.AlexNet (2012)

提出年份：2012年
特点：AlexNet是第一个成功应用在大规模图像分类任务（ImageNet）的深度神经网络。它通过多个卷积层和全连接层叠加，并使用ReLU激活函数，大大提高了训练效率。此外，AlexNet引入了Dropout和数据增强来防止过拟合。
结构：包含5个卷积层和3个全连接层。AlexNet通过最大池化层逐渐减少特征图大小，使得计算效率较高。

2.VGG (2014)

1.参数

cpp 复制代码

TOTAL params: 138M parameters

2.卷积核尺寸 3×3

提出年份：2014年
特点：VGG网络进一步加深了网络结构，使用小卷积核（3×3）和更深的网络结构（例如16或19层）。其设计思想是通过多个3×3卷积层堆叠来提取特征，而不是使用大卷积核，从而增强了模型的表征能力。
结构：典型的 VGG-16 和 VGG-19 都是深度卷积神经网络，包含16层或19层卷积层和全连接层。相比AlexNet，VGG的结构更深，但也因此计算量更大。

3.GoogLeNet (2014)

1.参数

cpp 复制代码

only 5M parameters！
Total: 358M ops

2.计算量的计算

feature map → output size ？？补

提出年份：2014年
特点：GoogleNet的创新之处在于引入了Inception模块，在同一层中使用不同大小的卷积核来提取不同尺度的特征。此外，GoogleNet的结构相较于VGG和AlexNet更复杂，但参数量更少。
结构：由多个Inception模块组成，每个模块包含1×1、3×3和5×5卷积核，允许模型自动学习特征图的多尺度信息，减少了参数量的同时保持了较高的表现。

4.ResNet：残差网络，分类 (2015)

ResNet (何恺明，2015)

1.参数

cpp 复制代码

Total depths of 34,50,101 layers

2.过程：

四个残差块

3.功能

分类、分割

5.U-Net：分割 (2015)

U-Net 主要应用于图像分割 任务，特别是在医学图像分割中表现突出。编码器、解码器。

ResNet 更侧重于图像分类及深度网络训练的优化。

6.MobileNet (2017)

轻量化网络

7.R-CNN (2014)、Fast R-CNN (2015)、Faster R-CNN(2015)：目标检测

RPN:Region Proposal Network

预测：两阶段 (Two Stage Detection )、一阶段 (One-Stage Detection )

①backbone + Region Proposal Network

②预测object

Faster R-CNN 对比 End-to-End Object Detection with Transformer

简单场景、小物体为主：CNN（如Faster R-CNN）更为适合。

复杂场景、大物体为主或需要全局推理：Transformer（如DETR）具有更大潜力。

DETR的创新在于直接采用Transformer将目标检测简化为集合预测问题，展示了在未来目标检测系统中全面采用自注意力机制的可能性。