12.7深度学习_经典神经网络_VGG

一、VGG神经网络

VGG的亮点在于它通过堆叠多个卷积层，以小的卷积核和池化层的方式来增加网络深度，从而实现高精度的图像识别。这种方法可以有效地捕获图像中的高级特征，并通过不断拟合训练数据来提高识别准确率。

1. 小卷积作用

DC Ciresan等人研究表明使用更小的卷积是有利的。牛津大学Visual Geometry Group提出VGG，使用了大量小卷积核，获得了ILSVRC 2014分类任务第2名。

python 复制代码

"D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"],

1.1 感受野的作用

感受野是个相对概念，某层feature map上的元素看到前面不同层上的区域范围是不同的，通常在不特殊指定的情况下，感受野指的是看到输入图像上的区域。

网络层数增加（非线性表达能力增加）
网络参数数量减少

2. VGG版本

根据深度不同，有VGG11，VGG13，VGG16，VGG19。在日常使用过程中一般使用16层的那个，即下图中的D。

python 复制代码

cfgs = {
    "A": [64, "M", 128, "M", 256, 256, "M", 512, 512, "M", 512, 512, "M"],
    "B": [64, 64, "M", 128, 128, "M", 256, 256, "M", 512, 512, "M", 512, 512, "M"],
    "D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"],
    "E": [64, 64, "M", 128, 128, "M", 256, 256, 256, 256, "M", 512, 512, 512, 512, "M", 512, 512, 512, 512, "M"],
}

python 复制代码

self.classifier = nn.Sequential(
            nn.Linear(512 * 7 * 7, 4096),
            nn.ReLU(True),
            nn.Dropout(p=dropout),
            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(p=dropout),
            nn.Linear(4096, num_classes),
        )

下图展示了他们的表现效果：

3. 存在的问题

尽管VGG在许多方面都表现优秀，但它也有一些缺陷：

该网络架构非常大，并且需要大量的计算资源来训练。这意味着，如果你想在较小的设备上使用VGG，比如移动设备或个人电脑，会发现它非常慢，并且可能无法获得足够的性能。
由于VGG网络架构非常深，它可能会导致梯度消失或爆炸的问题。这是由于在非常深的神经网络中，梯度在传播过程中可能会变得非常小或非常大，从而导致模型无法正常训练。

因此，VGG网络架构虽然在许多方面都非常优秀，但是要注意这些缺点可能导致的问题。