Pytorch（笔记8神经网络nn）

1、nn.Module

torch.nn是专门为深度学习而设计的模块。torch.nn的核心数据结构是Module，它是一个抽象的概念，既可以表示神经网络中的某个层（layer），也可以表示一个包含很多层的神经网络。在实际使用中，最常见的做法是继承nn.Module，从而编写自己的网络/层。下面先来看看如何用nn.Module实现自己的全连接层。Y=AX+B

复制代码

import torch as t
import torch.nn as nn

class network(nn.Module):
    def __init__(self, input, output):
        super().__init__()
        # 定义权重矩阵a，它是一个可训练的参数，形状为(input, output)
        self.a = nn.Parameter(t.randn(input, output))
        # 定义偏置向量b，它也是一个可训练的参数，形状为(output,)
        # 注意：偏置向量的长度应与输出特征的维度相匹配
        self.b = nn.Parameter(t.randn(output))

    def forward(self, x):
        """
        定义前向传播过程

        参数:
            x (torch.Tensor): 输入数据，形状应为(batch_size, input)

        返回:
            torch.Tensor: 输出数据，形状为(batch_size, output)
        """
        # 首先，使用权重矩阵a对输入x进行线性变换
        # x@self.a执行矩阵乘法，x的每一行与a相乘，结果形状为(batch_size, output)
        x = x @ self.a
        # 然后，将偏置向量b扩展（通过broadcasting）到与x相同的形状，并加到x上
        # self.b.expand_as(x)将b的形状从(output,)扩展到(batch_size, output)
        # x + self.b.expand_as(x)将偏置加到每个样本的输出上
        x = x + self.b.expand_as(x)
        # 返回变换后的输出
        return x


a = network(4, 3)
# 创建输入数据，形状为(6, 4)，表示有6个样本，每个样本有4个特征
input = t.rand(6, 4)
# 通过网络前向传播得到输出
output = a(input)
# 打印输出，形状应为(6, 3)，表示有6个样本，每个样本的输出特征维度为3
print(output)

自定义层network必须继承nn.Module，并且在其构造函数中需调用nn.Module的构造函数，即super().init ()或nn.Module.init(self)，推荐使用第一种用法；
在构造函数__init__中必须自行定义可学习的参数，并封装成Parameter，如在本例中我们把w和b封装成Parameter。Parameter是一种特殊的Tensor，但其默认需要求导（requires_grad
= True）
forward函数实现前向传播过程，其输入可以是一个或多个Tensor；
无需写反向传播函数，nn.Module能够利用autograd自动实现反向传播，这点比Function简单许多；
Module中的可学习参数可以通过named_parameters()或者parameters()返回一个迭代器，前者会给每个parameter都附上名字，使其更具有辨识度。

2、常用神经网络层

2.1 图像相关层

图像相关层主要包括卷积层（Conv）、池化层（Pool）等，这些层在实际使用中可分为一维（1D）、二维（2D）和三维（3D），池化方式又分为平均池化（AvgPool）、最大值池化（MaxPool）、自适应池化（AdaptiveAvgPool）等。而卷积层除了常用的前向卷积之外，还有逆卷积（TransposeConv）等等。下面将举例说明。

特征提取
保持数据空间结构
引入非线性变换在卷积操作之后，通常会应用一个激活函数（如ReLU、Sigmoid或Tanh）来引入非线性变换。这些激活函数能够增加CNN的表达能力，使其能够学习更加复杂的非线性关系。
提高计算效率通过卷积操作和池化层的结合使用，卷积层能够降低特征图的空间维度，从而减少计算量并提高模型的计算效率。同时，池化层还能够增强特征的平移不变性，使模型对输入数据的小变化更加鲁棒。

卷积层

在深度学习中，与图像处理相关的网络结构中最重要的便是卷积层(Conv)。卷积神经网络的本质就是卷积层、池化层、激活层以及其他层的叠加，所以理解卷积层的工作原理是极其重要的，下面将举例说明卷积操作的具体过程。

复制代码

# 导入PyTorch库  
import torch  
import torch.nn as nn  
  
# 从torchvision.transforms导入ToTensor和ToPILImage，用于图像张量和PIL图像之间的转换  
from torchvision.transforms import ToTensor, ToPILImage  
  
# 从PIL（Python Imaging Library，Pillow是其一个分支）导入Image模块，用于处理图像文件  
from PIL import Image  
  
# 使用PIL的Image.open函数打开指定路径的图片文件，并通过.convert("L")将其转换为灰度图像（单通道）  
img = Image.open("H:\\PYTHON_Proj\\handlearnpytorch\\OIP-C.jpg").convert("L")  
  
# 实例化ToTensor转换对象，用于将PIL图像转换为PyTorch张量  
to_tensor = ToTensor()  
  
# 实例化ToPILImage转换对象，用于将PyTorch张量转换回PIL图像  
to_PIL = ToPILImage()  
  
# 使用to_tensor将PIL图像转换为PyTorch张量，并通过.unsqueeze(0)在批次大小维度上增加一个维度，使其形状变为(1, 1, H, W)  
img = to_tensor(img).unsqueeze(0)  
  
# 创建一个3x3的卷积核（滤波器），初始时所有元素都被设置为-1/9，然后将中心元素设置为1  
kernel = torch.ones(3, 3) / (-9.0)  
kernel[1][1] = 1  
  
# 创建一个Conv2d层，指定输入通道数为1（因为是灰度图像），输出通道数也为1，卷积核大小为3x3，步长为1，填充为1（保持输出尺寸与输入相同），且不使用偏置项  
conv = nn.Conv2d(1, 1, 3, 1, 1, bias=False)  
  
# 将之前定义的卷积核赋值给Conv2d层的权重，注意要调整形状以匹配Conv2d层的期望（out_channels, in_channels, kernel_size[0], kernel_size[1]）  
conv.weight.data = kernel.reshape(1, 1, 3, 3)  
  
# 对图像应用卷积操作，此时img是一个四维张量，Conv2d层会处理它并返回一个新的四维张量  
img = conv(img)  
  
# 使用to_PIL将卷积后的PyTorch张量转换回PIL图像，并通过.squeeze(0)移除批次大小维度  
img = to_PIL(img.squeeze(0))  
  
# 使用PIL的.show()方法显示图像  
img.show()

池化层

池化层可以看作是一种特殊的卷积层，其主要用于下采样，增加池化层可以在保留主要特征的同时降低参数量，从而一定程度上防止了过拟合。池化层没有可学习参数，它的weight是固定的。在torch.nn工具箱中封装好了各种池化层，常见的有最大池化（MaxPool）和平均池化（AvgPool)，池化层（Pooling Layer）在卷积神经网络（CNN）中扮演着非常重要的角色。它的主要用处可以归纳为以下几点：

降维（减少计算量）：池化层通过减少数据的空间大小（即高度和宽度），来降低后续层的计算量和参数数量。这对于防止过拟合和加快计算速度是非常有益的。
特征不变性：池化层能够使得模型学习到更加鲁棒的特征表示，即对输入数据的微小变化（如平移、旋转等）具有不变性。这是因为池化操作（如最大池化、平均池化等）会选取区域内的代表性特征，而不是依赖于具体的位置信息。
提取主要特征：通过池化操作，可以提取出图像中最主要的特征，而忽略掉一些不重要的细节信息。这对于后续的卷积层进一步提取高层次的特征是有帮助的。
扩大感受野：随着网络层数的增加，池化层能够逐步扩大后续层中每个神经元对应的输入区域（即感受野）。这有助于网络学习到更加全局的特征信息。
减少过拟合：由于池化层通过减少数据的空间维度来降低参数数量，这在一定程度上可以减少模型的复杂度，从而有助于防止过拟合。

常见的池化操作包括：

最大池化（Max Pooling）：在池化窗口内选取最大值作为输出。这种方式有助于保留图像的边缘和纹理信息。
平均池化（Average Pooling）：在池化窗口内计算所有值的平均值作为输出。这种方式有助于保留图像的背景信息。
随机池化（Stochastic Pooling）：根据池化窗口内各元素的值大小，按概率随机选择元素作为输出。这种方式结合了最大池化和平均池化的优点，但计算复杂度较高。

总之，池化层是卷积神经网络中不可或缺的一部分，它通过减少数据的空间维度、提取主要特征、扩大感受野以及防止过拟合等方式，为整个网络的学习能力和性能提供了重要的支持。

复制代码

# 导入PyTorch库  
import torch  
  
# 导入PyTorch的神经网络模块，用于构建和训练神经网络  
import torch.nn as nn  
  
# 从torchvision.transforms模块导入ToTensor和ToPILImage，这两个转换工具用于图像数据的预处理和后处理  
from torchvision.transforms import ToTensor, ToPILImage  
  
# 从PIL库导入Image模块，用于图像的打开、显示等操作  
from PIL import Image  
  
# 创建一个ToTensor的实例，用于将PIL图像或numpy.ndarray转换为FloatTensor，并归一化到[0.0, 1.0]  
to_tensor = ToTensor()  
  
# 创建一个ToPILImage的实例，用于将Tensor或ndarray转换为PIL图像  
to_pil = ToPILImage()  
  
# 使用PIL的Image.open方法打开指定路径的图像文件，并将其转换为灰度图像（'L'模式）  
img = Image.open("H:\\PYTHON_Proj\\handlearnpytorch\\OIP-C.jpg").convert('L')  
  
# 使用PIL的show方法显示图像  
img.show()  
  
# 使用ToTensor转换将PIL图像转换为Tensor，并增加一个维度使其成为[1, H, W]形状，即增加一个批次维度  
img = to_tensor(img).unsqueeze(0)  
  
# 创建一个平均池化层实例，使用2x2的窗口大小和步长为2进行池化  
pool = nn.AvgPool2d(2, 2)  
  
# 对图像Tensor应用平均池化层，然后移除批次维度（squeeze(0)），使其变回[H', W']形状  
img = pool(img).squeeze(0)  
  
# 将Tensor转换回PIL图像以便显示  
img = to_pil(img)  
  
# 再次使用PIL的show方法显示经过池化处理的图像  
img.show()

其他层

除了卷积层和池化层，深度学习中还将常用到以下几个层：

Linear：全连接层；
BatchNorm：批标准化层，分为1D、2D和3D。除了标准的BatchNorm之外，还有在风格迁移中常用到的InstanceNorm层；
Dropout：Dropout层，用来防止过拟合，同样分为1D、2D和3D。

3、初始化策略

在深度学习中参数的初始化十分重要，良好的初始化能让模型更快地收敛，并达到更高水平，而糟糕的初始化则可能使得模型迅速崩溃。PyTorch中nn.Module的模块参数都采取了较为合理的初始化策略，因此一般不用我们考虑。当然我们也可以用自定义初始化来代替系统的默认初始化。而当我们在使用Parameter时，自定义初始化则尤为重要，这是因为torch.Tensor()返回的是内存中的随机数，很可能会有极大值，这在实际训练网络中会造成溢出或者梯度消失。PyTorch中nn.init模块就是专门为初始化而设计的一个模块，其中实现了常用的初始化策略。如果某种初始化策略nn.init不提供，用户也可以自己直接初始化。

复制代码

import torch  
from torch.nn import init  
from torch import nn  
  
# 创建一个线性层，其权重和偏置会被随机初始化（与torch.manual_seed无关，因为这是在调用torch.manual_seed之前发生的）  
linear = nn.Linear(3, 4)  
  
# 打印层创建时默认初始化的权重  
print("默认初始化的权重:")  
print(linear.weight)  
  
# 设置随机数生成的种子，以确保接下来的随机数生成是可重复的  
torch.manual_seed(2021)  
  
# 使用Xavier正态分布重新初始化权重  
# 这个初始化是受torch.manual_seed(2021)影响的  
init.xavier_normal_(linear.weight)  
  
# 打印重新初始化后的权重  
print("Xavier正态分布初始化后的权重:")  
print(linear.weight)