da白话讲深度学习-卷积网络

卷积神经网络(CNN)是指至少在网络的一层中使用卷积运算来代替一般的矩阵乘法运算的神经网络,因此名为为卷积神经网络(对于神经网络的发展与类型,可以学习站内的相关文章)

1.什么是卷积?

既然是卷积神经网络,其最主要的特点就是包含卷积层。

简单来说,卷积就像是一个滑动窗口在数据上移动,并在每个位置进行计算的过程,这个"滑动窗口",就是卷积核滤波器 ,它会扫描整个输入数据,并在每个位置与输入数据进行某种计算(通常是乘法和加法),从而提取出特定的特征

以灰度图像为例:

这就是卷积的过程。

那上面这些0和1是什么呢?

当我们输入一张图片后,卷积前会将图片转化为矩阵的格式,像是这样:

python 复制代码
from PIL import Image
from torchvision.transforms import ToTensor, ToPILImage
to_tensor = ToTensor()#将img转换成tensor格式,这张方法常用在神经网络的计算中
to_pil = ToPILImage()#将pytorch张量转换成PIL格式
lena = Image.open('图片路径')
lena

图片格式,输入时

转换成矩阵后:

而我们的卷积,就是对这组矩阵进行卷积,同时也是在对原有的图片进行卷积。

在上面的动图中,你能看发现了右矩阵和左矩阵及卷积有直接的关联,在图像处理中,卷积核通常是一个小的矩阵,比如3*3或5*5,它在图像上滑动,并在对应的位置计算,通过这个计算过程我们可以提取图像的边缘、纹理,模糊等特征。

还是让我们通过计算来了解这个过程。

假设一个5*5的灰度图像:

使用一个3*3的卷积核,这个卷积核能帮我们提取不同的特征

将卷积放在左上角,得到第一组:

也就是得到:

对每一组进行卷积,得到:

在上面的动图中发现,我们在卷积的过程中输入图像与卷积核进行卷积后的结果损失了部分值,输入图像的边缘被"修剪"掉了(边缘处只检测到了部分像素点,丢失了图片边界处的众多信息)。这是因为边缘上的像素永远不会位于卷积核的中心,而卷积核也没法扩展到边缘区域以外。

而有时候,我们还希望输入核输出的矩阵大小保证一致,为解决这个问题,我们会在卷积的过程中加入Padding(填充)。也就是在将矩阵的边界向外扩展一层,并以0填充新的值(大部分情况)。

通过padding,当卷积滚动计算输入计算数据时,它能延伸到边缘以外的像素,以保证输入像素的每一步都有效

除了padding,卷积核在从左向右滑动的过程中,除了每次逐行向左滑动一行或向下滑动一行计算输出,我们还能定义每次滑动的行数核列数,称为Stride,上面所有的stride=1,当stride=2时,为:

卷积过程中,有时需要通过padding来避免信息损失,有时也要在卷积时设置步长来压缩部分信息,使得输出的尺寸小于输入的尺寸

Stride的作用也就是缩小具体的倍数,例如步幅为2,输出就是输入的1/2,步幅为3,输出就是输入的1/3,你会在很多论文中这样表达,例如:

这是ResNet34的网络结果,我们后面会用不到50行的代码复现它,现在让我们把他撇到一遍。

相关推荐
是十一月末26 分钟前
Opencv查找、绘制轮廓、圆形矩形轮廓和近似轮廓
人工智能·python·opencv·计算机视觉
天堂的恶魔94628 分钟前
计算机网络 —— 网络编程(接口命令梳理)
网络·计算机网络
机器懒得学习30 分钟前
基于人脸识别和 MySQL 的考勤管理系统实现
数据库·人工智能·python·科技·mysql
玖 萬40 分钟前
计算机网络——数据链路层设备
服务器·网络·计算机网络
格林威44 分钟前
Baumer工业相机堡盟LXT工业相机如何升级固件使得相机具有RDMA功能
人工智能·数码相机·算法·计算机视觉·c#
小墙程序员1 小时前
人工智能的发展概述
人工智能
前网易架构师-高司机1 小时前
玉米好坏检测数据集,对2357张玉米图片进行yolo,coco,voc格式的人工标注,平均准确率在89.5%以上
人工智能·yolo·机器学习
Kika写代码1 小时前
【计算机网络】课程 实验二 交换机基本配置和VLAN 间路由实现
网络·计算机网络·智能路由器
Fuliy961 小时前
NO.1 《机器学习期末复习篇》以题(问答题)促习(人学习),满满干huo,大胆学大胆补!
人工智能·深度学习·机器学习
亲持红叶1 小时前
Chapter4.3:Implementing a feed forward network with GELU activations
人工智能·python·gpt·自然语言处理·transformer