深度学习——VGG与NiN网络

深度学习------VGG与NiN网络

文章目录

前言
一、使用块的网络（VGG）
- [1.1. VGG块](#1.1. VGG块)
- [1.2. VGG网络](#1.2. VGG网络)
- [1.3. 模型训练](#1.3. 模型训练)
- [1.4. 小结](#1.4. 小结)
二、网络中的网络（NIN）
- [2.1. NIN块](#2.1. NIN块)
- [2.2. NIN模型](#2.2. NIN模型)
- [2.3. 训练模型](#2.3. 训练模型)
- [2.4. 小结](#2.4. 小结)
总结

前言

本章将学习使用块的网络（VGG）以及网络中的网络（NIN），体会一下设计深层神经网络的启发式概念。

参考书：

《动手学深度学习》

一、使用块的网络（VGG）

1.1. VGG块

经典卷积神经网络的基本组成部分是下面的这个序列：

带填充以保持分辨率的卷积层；
非线性激活函数，如ReLU；
汇聚层，如最大汇聚层。

而一个VGG块与之类似，由一系列卷积层组成，后面再加上用于空间下采样的最大汇聚层。

在最初的VGG论文中，作者使用了带有 3 × 3 3\times3 3×3卷积核、填充为1（保持高度和宽度）的卷积层，和带有 2 × 2 2 \times 2 2×2汇聚窗口、步幅为2（每个块后的分辨率减半）的最大汇聚层。在下面的代码中，我们定义了一个名为vgg_block的函数来实现一个VGG块。

python 复制代码

import torch
from torch import nn
from d2l import torch as d2l

#该函数有三个参数，分别对应于卷积层的数量num_convs、输入通道的数量in_channels 和输出通道的数量out_channels.
def vgg_block(num_convs,in_channels,out_channels):
    layers = []
    for i in range(num_convs):
        layers.append(nn.Conv2d(in_channels,out_channels,kernel_size=3,padding=1))
        layers.append(nn.ReLU())
        in_channels = out_channels
    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
    return nn.Sequential(*layers)

1.2. VGG网络

VGG网络可以分为两部分：第一部分主要由卷积层和汇聚层组成，第二部分由全连接层组成。

VGG神经网络连接的几个VGG块（在vgg_block函数中定义）。其中有超参数变量conv_arch。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。

原始VGG网络有5个卷积块，其中前两个块各有一个卷积层，后三个块各包含两个卷积层。

第一个模块有64个输出通道，每个后续模块将输出通道数量翻倍，直到该数字达到512。由于该网络使用8个卷积层和3个全连接层，因此它通常被称为VGG-11。

1.3. 模型训练

python 复制代码

conv_arch = ((1,64),(1,128),(2,256),(2,512),(2,512))
def vgg(conv_arch):
    conv_blks = []
    in_channels = 1
    #卷积层部分
    for (num_convs,out_channels) in conv_arch:
        conv_blks.append(vgg_block(num_convs,in_channels,out_channels))
        in_channels = out_channels
    return nn.Sequential(
        *conv_blks,
        nn.Flatten(),
        #全连接层部分
        nn.Linear(out_channels*7*7,4096),nn.ReLU(),nn.Dropout(p=0.5),
        nn.Linear(4096,4096),nn.ReLU(),nn.Dropout(p=0.5),
        nn.Linear(4096,10)
    )
net = vgg(conv_arch)

#构建一个高度和宽度为224的单通道数据样本，以观察每个层输出的形状
X = torch.randn(1,1,224,224)
for blk in net:
    X = blk(X)
    print(blk.__class__.__name__,"输出形状为：\t",X.shape)


#由于VGG-11比AlexNet计算量更大，因此我们构建了一个通道数较少的网络，足够用于训练Fashion-MNIST数据集。
ratio = 4
small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch]
net = vgg(small_conv_arch)

lr, num_epochs, batch_size = 0.05, 10, 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

d2l.plt.show()

结果：

1.4. 小结

VGG-11使用可复用的卷积块构造网络。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。
块的使用导致网络定义的非常简洁。使用块可以有效地设计复杂的网络。
在VGG论文中，Simonyan和Ziserman尝试了各种架构。特别是他们发现深层且窄的卷积（即3×3）比较浅层且宽的卷积更有效。

二、网络中的网络（NIN）

LeNet、AlexNet和VGG都有一个共同的设计模式：通过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理

当将LeNet模型扩展到更深的神经网络（如AlexNet和VGG）时，主要的改进是在如何扩大和加深网络的模块上。引入全连接层可以实现网络的扩大和加深，但可能会丢失输入数据的空间结构信息。

网络中的网络（NiN）提供了一个非常简单的解决方案：

在NiN中，使用多个1×1卷积层堆叠在一起，形成了多层感知机，并在每个像素的通道上分别使用，以提取更丰富的特征表示。

2.1. NIN块

回想一下，卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度。另外，全连接层的输入和输出通常是分别对应于样本和特征的二维张量

NiN的想法是在每个像素位置（针对每个高度和宽度）应用一个全连接层。如果我们将权重连接到每个空间位置，我们可以将其视为1×1卷积层。

NiN块以一个普通卷积层开始，后面是两个1×1的卷积层。这两个1×1卷积层充当带有ReLU激活函数的逐像素全连接层。第一层的卷积窗口形状通常由用户设置。随后的卷积窗口形状固定为1×1。

python 复制代码

import torch
from torch import nn
from d2l import torch as d2l


def nin_block(in_channels, out_channels, kernel_size, strides, padding):
    return nn.Sequential(
        nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding),
        nn.ReLU(),
        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),
        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())

2.2. NIN模型

python 复制代码

#NIN模型
net = nn.Sequential(
    nin_block(1,96,kernel_size=11,strides=4,padding=0),
    nn.MaxPool2d(kernel_size=3,stride=2),
    nin_block(96,256,kernel_size=5,padding=2,strides=1),
    nn.MaxPool2d(kernel_size=3,stride=2),
    nin_block(256,384,kernel_size=3,strides=1,padding=1),
    nn.MaxPool2d(3,stride=2),
    nn.Dropout(p=0.5),
    #标签类别数是10
    nin_block(384,10,kernel_size=3,strides=1,padding=1),
    nn.AdaptiveAvgPool2d((1,1)),
    #将四维的输出转成二维的输出，其形状为（批量大小，10）
    nn.Flatten()
)

2.3. 训练模型

python 复制代码

#查看每个块的输出形状
X = torch.rand(size= (1,1,224,224))
for layer in net :
    X = layer(X)
    print(layer.__class__.__name__,"输出形状：\t",X.shape)



#训练模型
lr,num_epochs,batch_size = 0.1,10,128
train_iter,test_iter = d2l.load_data_fashion_mnist(batch_size,resize=224)
d2l.train_ch6(net,train_iter,test_iter,num_epochs,lr,d2l.try_gpu())
d2l.plt.show()

结果：

2.4. 小结

NiN使用由一个卷积层和多个1×1卷积层组成的块。该块可以在卷积神经网络中使用，以允许更多的每像素非线性。
NiN去除了容易造成过拟合的全连接层，将它们替换为全局平均汇聚层（即在所有位置上进行求和）。该汇聚层通道数量为所需的输出数量。
移除全连接层可减少过拟合，同时显著减少NiN的参数。

总结

本章学习了VGG与NIN这两个卷积神经网络模型。VGG引入了块的概念，将多个连续的卷积层和池化层整合为一个VGG块，使用多个VGG块进行特征提取，之后采用了全连接层进行分类。

NIN则是使用具有1x1卷积核的多层感知机来代替传统的全连接层，使用多个NIN模块，然后使用全局平均汇聚层将特征图压缩成一个向量。最后展平直接进行分类。

天下有始，以为天下母。

--2023-10-14 进阶篇