Pytorch学习 day07(神经网络基本骨架的搭建、2D卷积操作、2D卷积层)

神经网络基本骨架的搭建

  • Module:给所有的神经网络提供一个基本的骨架,所有神经网络都需要继承Module,并定义_ _ init _ _方法、 forward() 方法
  • 在_ _ init _ _方法中定义,卷积层的具体变换,在forward() 方法中定义,神经网络的前向传播具体是什么样的
  • 官方代码样例如下:
bash 复制代码
import torch.nn as nn
import torch.nn.functional as F

class Model(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(1, 20, 5)
        self.conv2 = nn.Conv2d(20, 20, 5)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        return F.relu(self.conv2(x))
  • 表明输入 x 经过一个卷积层A,一个非线性层a,一个卷积层B,一个非线性层b,最后输出,如下图:
  • 简单模型代码如下:
bash 复制代码
from torch import nn
import torch

# 定义一个简单的Module
class Tudui(nn.Module):
    def __init__(self): # 初始化函数
        super().__init__()  # 调用父类的初始化函数

    def forward(self, input):   # 前向传播函数
        output = input + 1  # 定义张量的加法运算
        return output   # 返回输出张量

tudui = Tudui() # 实例化一个Tudui对象
x = torch.tensor(1.0)   # tensor()函数可以将任意数据转换为张量
print(tudui(x))
复制代码
* 注意:可以在调试模式中,选择单步执行代码,一步一步执行更清晰

2D卷积操作(了解原理即可,实际直接使用卷积层)

  • 2D卷积操作:卷积核在输入图像上不断移动,并把对应位相乘再求和,最后得到输出结果,以下是参数设置:
    • input:输入张量的维数要是四维,batch表示一次输入多少张图像,channel表示通道数,RGB图像的通道数为3,灰度图像(一层二维张量)的通道数为1,H为高度,W为宽度
    • weight:卷积核,维数也要是四维,out_channel表示(输出通道数)卷积核的数量,in_channel表示输入图像的通道数,一般groups为1,H为高度,W为宽度
    • stride:卷积核每次移动的步长(为整数或者长度为2的元组),如果是整数,表示在水平和垂直方向上使用相同的步长。如果是元组,分别表示在水平和垂直方向上的步长。默认为1。
    • padding:控制在输入张量的边界周围添加的零填充的数量(为整数或长度为2的元组),如果是整数,表示在水平和垂直方向上使用相同的填充数量。如果是元组,分别表示在水平和垂直方向上的填充数量。默认为0
  • 例如,将一张灰度图经过2D卷积操作得到输出的代码,如下:
bash 复制代码
import torch

# 因为想让输入数据是tensor类型的,所以使用torch.tensor
input = torch.tensor([[1,2,0,3,1],
                      [0,1,2,3,1],
                      [1,2,1,0,0],
                      [5,2,3,1,1],
                      [2,1,0,1,1]])

# 因为想让卷积核是tensor类型的,所以使用torch.tensor
kernel = torch.tensor([[1,2,1],
                      [0,1,0],
                      [2,1,0]])
print(input.shape) # torch.Size([5, 5])
print(kernel.shape) # torch.Size([3, 3])

# 由于卷积核的尺寸和输入的尺寸都不满足卷积运算的要求,所以需要对输入和卷积核进行维度的扩展
input = torch.reshape(input, [1,1,5,5]) # 输入是一张二维图片,所以batch_size=1(一张),通道数为1(二维张量)
kernel = torch.reshape(kernel, [1,1,3,3]) # 卷积核的个数为1,所以输出通道数为1,输入通道数由上可知为1

print(input.shape) # torch.Size([1, 1, 5, 5])
print(kernel.shape) # torch.Size([1, 1, 3, 3])

output = torch.nn.functional.conv2d(input, kernel, stride=1)   # 经过2D卷积运算后的输出 
print(output)
  • 可视化图如下:
  • padding设置为1的可视化图如下:

2D卷积层


  • 2D卷积层,通常我们直接使用卷积层即可,上一节仅供了解,以下是参数设置:
    • in_channels:输入通道数,RGB图像为3,灰度图像为1,一层二维张量为1
    • out_channels:输出通道数,即卷积核的个数
    • kernel_size:卷积核的高宽(整数或元组),整数时表示高宽都为该整数,元组时表示分别在水平和垂直方向上的长度。我们只需要设置卷积核的高宽,而卷积核内部的具体参数不需要我们指定,它是在神经网络的训练中不断地对分布进行采样,同时进行不断调整
    • stride:卷积核每次移动的步长(整数或元组),整数时表示在水平和垂直方向上使用相同的步长。元组时分别表示在水平和垂直方向上的步长。默认为1。
    • padding:控制在输入张量的边界周围添加的零填充的数量(为整数或元组),如果是整数,表示在水平和垂直方向上使用相同的填充数量。如果是元组,分别表示在水平和垂直方向上的填充数量。默认为0
    • padding_mode:控制以什么样的模式进行填充,默认为 zeros 零填充
    • dilation:卷积核内部元素之间的距离,空洞卷积
    • groups:默认为1
    • bias:给输出加一个偏置,默认为True
  • 以下是2D卷积层的可视化图像,青色的为输出图像,蓝色为输入图像,深蓝色为卷积核:
No padding,No strides Aribitrary padding,No strides
Half padding,No strides Full padding,No strides
No padding,strides Padding,strides Padding,strides(odd)
  • 当out_channel 为2时,卷积核也为2个,会先拿第一个卷积核与输入图像进行卷积,得到第一个输出,然后会拿第二个卷积核与输入图像进行卷积,得到第二个输出,这两个卷积核内部的具体参数可能会不同,最后把这两个输出叠加起来得到最终的输出,以下是可视化图像:
  • 构建一个包含一层简单2D卷积层的神经网络模型,代码如下:
bash 复制代码
import torch
import torch.nn as nn
import torchvision

test_dataset = torchvision.datasets.CIFAR10(root='Dataset', train=False, download=True, transform=torchvision.transforms.ToTensor())
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=0)

class Tudui(nn.Module):

    def __init__(self): # 初始化
        super().__init__()  # 继承父类的初始化
        self.conv1 = nn.Conv2d(3, 6, 3, 1, 0)   # 输入通道数3,输出通道数6,卷积核大小3*3,步长1,填充0

    def forward(self, x):  # 前向传播
        x = self.conv1(x)   # 调用卷积层对输入x进行卷积
        return x

tudui = Tudui() # 实例化网络模型

print(tudui)    # 打印网络结构

# 输出结果:
# Files already downloaded and verified
# Tudui(
#  (conv1): Conv2d(3, 6, kernel_size=(3, 3), stride=(1, 1))
# )
  • 打印输入和输出的代码如下:
    • 注意:由于输入经过了一层卷积,所以输出尺寸会变小
bash 复制代码
for data in test_loader:
    imgs, targets = data
    outputs = tudui(imgs)   # 调用网络模型进行前向传播
    print(imgs.shape)       # 打印输入数据的形状,torch.Size([64, 3, 32, 32])
    print(outputs.shape)    # 打印输出数据的形状,torch.Size([64, 6, 30, 30])
  • 可以通过tensorboard来展示输入图像和输出图像,代码如下:
    • 注意: 由于outputs的channel为6,而add_images函数要求channel为3,所以需要对outputs进行处理
    • 把torch.Size([64, 6, 30, 30]) -> torch.Size([xx, 3, 30, 30]) 把6个通道变成3个通道,多出来的部分就打包放入batch_size中
    • 如果不知道变换后的batch_size是多少,可以写-1,PyTorch会自动计算
bash 复制代码
import torch
import torch.nn as nn
import torchvision
from torch.utils.tensorboard import SummaryWriter

test_dataset = torchvision.datasets.CIFAR10(root='Dataset', train=False, download=True, transform=torchvision.transforms.ToTensor())
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=64, shuffle=False, num_workers=0)

class Tudui(nn.Module):

    def __init__(self): # 初始化
        super().__init__()  # 继承父类的初始化
        self.conv1 = nn.Conv2d(3, 6, 3, 1, 0)   # 输入通道数3,输出通道数6,卷积核大小3*3,步长1,填充0

    def forward(self, x):  # 前向传播
        x = self.conv1(x)   # 调用卷积层对输入x进行卷积
        return x

tudui = Tudui() # 实例化网络模型

writer = SummaryWriter("logs") # 创建一个SummaryWriter对象,指定日志文件保存路径
step = 0
for data in test_loader:
    imgs, targets = data
    outputs = tudui(imgs)   # 调用网络模型进行前向传播
    writer.add_images("input", imgs, step)  # 将输入数据imgs写入日志文件
    # 由于outputs的channel为6,而add_images函数要求channel为3,所以需要对outputs进行处理
    # 把torch.Size([64, 6, 30, 30]) -> torch.Size([xx, 3, 30, 30]) 把6个通道变成3个通道,多出来的部分就打包放入batch_size中
    # 如果不知道变换后的batch_size是多少,可以使用-1,PyTorch会自动计算
    outputs = torch.reshape(outputs, (-1, 3, 30, 30))  # 将outputs的channel从6改为3
    writer.add_images("output", outputs, step)  # 将输出数据outputs写入日志文件
    step += 1

writer.close()  # 关闭日志文件
  • 结果如下:
  • 注意:如果别人论文里没有写stride、padding具体为多少,那么我们可以根据以下式子进行推导:
    • N:batch_size
    • C:channel
    • H:高
    • W:宽
相关推荐
百***07452 分钟前
OpenClaw+一步API实战:本地化AI自动化助手从部署到落地全指南
大数据·人工智能·python
AI视觉网奇5 分钟前
ue 导出 fbx
笔记·学习·ue5
野犬寒鸦8 分钟前
从零起步学习并发编程 || 第三章:JMM(Java内存模型)详解及对比剖析
java·服务器·开发语言·分布式·后端·学习·spring
deephub10 分钟前
torch.compile 加速原理:kernel 融合与缓冲区复用
人工智能·pytorch·深度学习·神经网络
HyperAI超神经12 分钟前
覆盖天体物理/地球科学/流变学/声学等19种场景,Polymathic AI构建1.3B模型实现精确连续介质仿真
人工智能·深度学习·学习·算法·机器学习·ai编程·vllm
AI周红伟13 分钟前
周红伟:大模型的微调和 腾讯姚顺雨 刚发布“上下文学习”论文,的区别和联系
学习
沐泽__26 分钟前
Flask简介
后端·python·flask
近津薪荼30 分钟前
递归专题(4)——两两交换链表中的节点
数据结构·c++·学习·算法·链表
码界奇点30 分钟前
基于Django的超市管理系统设计与实现
数据库·python·django·sqlite·毕业设计·源代码管理
-Springer-34 分钟前
STM32 学习 —— 个人学习笔记2-1(软件安装)
笔记·stm32·学习