Pytorch(笔记8神经网络nn)

1、nn.Module

torch.nn是专门为深度学习而设计的模块。torch.nn的核心数据结构是Module,它是一个抽象的概念,既可以表示神经网络中的某个层(layer),也可以表示一个包含很多层的神经网络。在实际使用中,最常见的做法是继承nn.Module,从而编写自己的网络/层。下面先来看看如何用nn.Module实现自己的全连接层。Y=AX+B

import torch as t
import torch.nn as nn

class network(nn.Module):
    def __init__(self, input, output):
        super().__init__()
        # 定义权重矩阵a,它是一个可训练的参数,形状为(input, output)
        self.a = nn.Parameter(t.randn(input, output))
        # 定义偏置向量b,它也是一个可训练的参数,形状为(output,)
        # 注意:偏置向量的长度应与输出特征的维度相匹配
        self.b = nn.Parameter(t.randn(output))

    def forward(self, x):
        """
        定义前向传播过程

        参数:
            x (torch.Tensor): 输入数据,形状应为(batch_size, input)

        返回:
            torch.Tensor: 输出数据,形状为(batch_size, output)
        """
        # 首先,使用权重矩阵a对输入x进行线性变换
        # x@self.a执行矩阵乘法,x的每一行与a相乘,结果形状为(batch_size, output)
        x = x @ self.a
        # 然后,将偏置向量b扩展(通过broadcasting)到与x相同的形状,并加到x上
        # self.b.expand_as(x)将b的形状从(output,)扩展到(batch_size, output)
        # x + self.b.expand_as(x)将偏置加到每个样本的输出上
        x = x + self.b.expand_as(x)
        # 返回变换后的输出
        return x


a = network(4, 3)
# 创建输入数据,形状为(6, 4),表示有6个样本,每个样本有4个特征
input = t.rand(6, 4)
# 通过网络前向传播得到输出
output = a(input)
# 打印输出,形状应为(6, 3),表示有6个样本,每个样本的输出特征维度为3
print(output)
  • 自定义层network必须继承nn.Module,并且在其构造函数中需调用nn.Module的构造函数,即super().init ()或nn.Module.init(self),推荐使用第一种用法;
  • 在构造函数__init__中必须自行定义可学习的参数,并封装成Parameter,如在本例中我们把w和b封装成Parameter。Parameter是一种特殊的Tensor,但其默认需要求导(requires_grad
    = True)
  • forward函数实现前向传播过程,其输入可以是一个或多个Tensor;
  • 无需写反向传播函数,nn.Module能够利用autograd自动实现反向传播,这点比Function简单许多;
  • Module中的可学习参数可以通过named_parameters()或者parameters()返回一个迭代器,前者会给每个parameter都附上名字,使其更具有辨识度。

2、常用神经网络层

2.1 图像相关层

图像相关层主要包括卷积层(Conv)、池化层(Pool)等,这些层在实际使用中可分为一维(1D)、二维(2D)和三维(3D),池化方式又分为平均池化(AvgPool)、最大值池化(MaxPool)、自适应池化(AdaptiveAvgPool)等。而卷积层除了常用的前向卷积之外,还有逆卷积(TransposeConv)等等。下面将举例说明。

  • 特征提取
  • 保持数据空间结构
  • 引入非线性变换 在卷积操作之后,通常会应用一个激活函数(如ReLU、Sigmoid或Tanh)来引入非线性变换。这些激活函数能够增加CNN的表达能力,使其能够学习更加复杂的非线性关系。
  • 提高计算效率通过卷积操作和池化层的结合使用,卷积层能够降低特征图的空间维度,从而减少计算量并提高模型的计算效率。同时,池化层还能够增强特征的平移不变性,使模型对输入数据的小变化更加鲁棒。

卷积层

在深度学习中,与图像处理相关的网络结构中最重要的便是卷积层(Conv)。卷积神经网络的本质就是卷积层、池化层、激活层以及其他层的叠加,所以理解卷积层的工作原理是极其重要的,下面将举例说明卷积操作的具体过程。

# 导入PyTorch库  
import torch  
import torch.nn as nn  
  
# 从torchvision.transforms导入ToTensor和ToPILImage,用于图像张量和PIL图像之间的转换  
from torchvision.transforms import ToTensor, ToPILImage  
  
# 从PIL(Python Imaging Library,Pillow是其一个分支)导入Image模块,用于处理图像文件  
from PIL import Image  
  
# 使用PIL的Image.open函数打开指定路径的图片文件,并通过.convert("L")将其转换为灰度图像(单通道)  
img = Image.open("H:\\PYTHON_Proj\\handlearnpytorch\\OIP-C.jpg").convert("L")  
  
# 实例化ToTensor转换对象,用于将PIL图像转换为PyTorch张量  
to_tensor = ToTensor()  
  
# 实例化ToPILImage转换对象,用于将PyTorch张量转换回PIL图像  
to_PIL = ToPILImage()  
  
# 使用to_tensor将PIL图像转换为PyTorch张量,并通过.unsqueeze(0)在批次大小维度上增加一个维度,使其形状变为(1, 1, H, W)  
img = to_tensor(img).unsqueeze(0)  
  
# 创建一个3x3的卷积核(滤波器),初始时所有元素都被设置为-1/9,然后将中心元素设置为1  
kernel = torch.ones(3, 3) / (-9.0)  
kernel[1][1] = 1  
  
# 创建一个Conv2d层,指定输入通道数为1(因为是灰度图像),输出通道数也为1,卷积核大小为3x3,步长为1,填充为1(保持输出尺寸与输入相同),且不使用偏置项  
conv = nn.Conv2d(1, 1, 3, 1, 1, bias=False)  
  
# 将之前定义的卷积核赋值给Conv2d层的权重,注意要调整形状以匹配Conv2d层的期望(out_channels, in_channels, kernel_size[0], kernel_size[1])  
conv.weight.data = kernel.reshape(1, 1, 3, 3)  
  
# 对图像应用卷积操作,此时img是一个四维张量,Conv2d层会处理它并返回一个新的四维张量  
img = conv(img)  
  
# 使用to_PIL将卷积后的PyTorch张量转换回PIL图像,并通过.squeeze(0)移除批次大小维度  
img = to_PIL(img.squeeze(0))  
  
# 使用PIL的.show()方法显示图像  
img.show()

池化层

池化层可以看作是一种特殊的卷积层,其主要用于下采样,增加池化层可以在保留主要特征的同时降低参数量,从而一定程度上防止了过拟合。池化层没有可学习参数,它的weight是固定的。在torch.nn工具箱中封装好了各种池化层,常见的有最大池化(MaxPool)和平均池化(AvgPool),池化层(Pooling Layer)在卷积神经网络(CNN)中扮演着非常重要的角色。它的主要用处可以归纳为以下几点:

  • 降维(减少计算量):池化层通过减少数据的空间大小(即高度和宽度),来降低后续层的计算量和参数数量。这对于防止过拟合和加快计算速度是非常有益的。
  • 特征不变性:池化层能够使得模型学习到更加鲁棒的特征表示,即对输入数据的微小变化(如平移、旋转等)具有不变性。这是因为池化操作(如最大池化、平均池化等)会选取区域内的代表性特征,而不是依赖于具体的位置信息。
  • 提取主要特征:通过池化操作,可以提取出图像中最主要的特征,而忽略掉一些不重要的细节信息。这对于后续的卷积层进一步提取高层次的特征是有帮助的。
  • 扩大感受野:随着网络层数的增加,池化层能够逐步扩大后续层中每个神经元对应的输入区域(即感受野)。这有助于网络学习到更加全局的特征信息。
  • 减少过拟合:由于池化层通过减少数据的空间维度来降低参数数量,这在一定程度上可以减少模型的复杂度,从而有助于防止过拟合。

常见的池化操作包括:

  • 最大池化(Max Pooling):在池化窗口内选取最大值作为输出。这种方式有助于保留图像的边缘和纹理信息。
  • 平均池化(Average Pooling):在池化窗口内计算所有值的平均值作为输出。这种方式有助于保留图像的背景信息。
  • 随机池化(Stochastic Pooling):根据池化窗口内各元素的值大小,按概率随机选择元素作为输出。这种方式结合了最大池化和平均池化的优点,但计算复杂度较高。

总之,池化层是卷积神经网络中不可或缺的一部分,它通过减少数据的空间维度、提取主要特征、扩大感受野以及防止过拟合等方式,为整个网络的学习能力和性能提供了重要的支持。

# 导入PyTorch库  
import torch  
  
# 导入PyTorch的神经网络模块,用于构建和训练神经网络  
import torch.nn as nn  
  
# 从torchvision.transforms模块导入ToTensor和ToPILImage,这两个转换工具用于图像数据的预处理和后处理  
from torchvision.transforms import ToTensor, ToPILImage  
  
# 从PIL库导入Image模块,用于图像的打开、显示等操作  
from PIL import Image  
  
# 创建一个ToTensor的实例,用于将PIL图像或numpy.ndarray转换为FloatTensor,并归一化到[0.0, 1.0]  
to_tensor = ToTensor()  
  
# 创建一个ToPILImage的实例,用于将Tensor或ndarray转换为PIL图像  
to_pil = ToPILImage()  
  
# 使用PIL的Image.open方法打开指定路径的图像文件,并将其转换为灰度图像('L'模式)  
img = Image.open("H:\\PYTHON_Proj\\handlearnpytorch\\OIP-C.jpg").convert('L')  
  
# 使用PIL的show方法显示图像  
img.show()  
  
# 使用ToTensor转换将PIL图像转换为Tensor,并增加一个维度使其成为[1, H, W]形状,即增加一个批次维度  
img = to_tensor(img).unsqueeze(0)  
  
# 创建一个平均池化层实例,使用2x2的窗口大小和步长为2进行池化  
pool = nn.AvgPool2d(2, 2)  
  
# 对图像Tensor应用平均池化层,然后移除批次维度(squeeze(0)),使其变回[H', W']形状  
img = pool(img).squeeze(0)  
  
# 将Tensor转换回PIL图像以便显示  
img = to_pil(img)  
  
# 再次使用PIL的show方法显示经过池化处理的图像  
img.show()

其他层

除了卷积层和池化层,深度学习中还将常用到以下几个层:

  • Linear:全连接层;
  • BatchNorm:批标准化层,分为1D、2D和3D。除了标准的BatchNorm之外,还有在风格迁移中常用到的InstanceNorm层;
  • Dropout:Dropout层,用来防止过拟合,同样分为1D、2D和3D。

3、初始化策略

在深度学习中参数的初始化十分重要,良好的初始化能让模型更快地收敛,并达到更高水平,而糟糕的初始化则可能使得模型迅速崩溃。PyTorch中nn.Module的模块参数都采取了较为合理的初始化策略,因此一般不用我们考虑。当然我们也可以用自定义初始化来代替系统的默认初始化。而当我们在使用Parameter时,自定义初始化则尤为重要,这是因为torch.Tensor()返回的是内存中的随机数,很可能会有极大值,这在实际训练网络中会造成溢出或者梯度消失。PyTorch中nn.init模块就是专门为初始化而设计的一个模块,其中实现了常用的初始化策略。如果某种初始化策略nn.init不提供,用户也可以自己直接初始化。

import torch  
from torch.nn import init  
from torch import nn  
  
# 创建一个线性层,其权重和偏置会被随机初始化(与torch.manual_seed无关,因为这是在调用torch.manual_seed之前发生的)  
linear = nn.Linear(3, 4)  
  
# 打印层创建时默认初始化的权重  
print("默认初始化的权重:")  
print(linear.weight)  
  
# 设置随机数生成的种子,以确保接下来的随机数生成是可重复的  
torch.manual_seed(2021)  
  
# 使用Xavier正态分布重新初始化权重  
# 这个初始化是受torch.manual_seed(2021)影响的  
init.xavier_normal_(linear.weight)  
  
# 打印重新初始化后的权重  
print("Xavier正态分布初始化后的权重:")  
print(linear.weight)
相关推荐
秀儿还能再秀2 小时前
神经网络(系统性学习三):多层感知机(MLP)
神经网络·学习笔记·mlp·多层感知机
wusong9993 小时前
mongoDB回顾笔记(一)
数据库·笔记·mongodb
猫爪笔记3 小时前
前端:HTML (学习笔记)【1】
前端·笔记·学习·html
Resurgence033 小时前
【计组笔记】习题
笔记
pq113_63 小时前
ftdi_sio应用学习笔记 3 - GPIO
笔记·学习·ftdi_sio
老艾的AI世界3 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
爱米的前端小笔记4 小时前
前端八股自学笔记分享—页面布局(二)
前端·笔记·学习·面试·求职招聘
寒笙LED6 小时前
C++详细笔记(六)string库
开发语言·c++·笔记
sp_fyf_20247 小时前
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
CoderIsArt7 小时前
基于 BP 神经网络整定的 PID 控制
人工智能·深度学习·神经网络