VGG16模型原理讲解-手写代码解析VGG16模型

核心创新与影响

  1. 3×3卷积堆叠 :2个3×3=5×5感受野,3个3×3=7×7,参数更少、深度更深、特征更抽象。计算成本。假设输入输出channel均为C,3个3x3参数个数为3x(3x3xCxC)=27xC²,一个7x7参数个数为7x7xCxC=49xC²,因此用3个3x3的卷积层等于一个7x7的卷积层但是节省近一半的参数计算量。
  2. 深层特征提取 :从8层到16/19层,错误率显著下降,网络深度至关重要:16--19 层显著优于浅层(如 8 层 AlexNet)
  3. 简洁通用 :模块化设计,易复现、易迁移 ,仅使用 3×3 卷积 + 2×2 最大池化,无复杂模块,‌易于理解、复现与修改
  4. 局限性参数量大、训练慢、显存占用高

原始论文PDF

论文地址https://arxiv.org/pdf/1409.1556.pdf

VGG16 模型结构(16层:13 conv + 3 FC)

输入:224×224 RGB 图像

1)卷积块(5组,每组 Conv→ReLU→MaxPool)
  • Block1 :2×Conv3×3,64 → ReLU → MaxPool2×2
    输出:224→112,通道64
  • Block2 :2×Conv3×3,128 → ReLU → MaxPool2×2
    输出:112→56,通道128
  • Block3 :3×Conv3×3,256 → ReLU → MaxPool2×2
    输出:56→28,通道256
  • Block4 :3×Conv3×3,512 → ReLU → MaxPool2×2
    输出:28→14,通道512
  • Block5 :3×Conv3×3,512 → ReLU → MaxPool2×2
    输出:14→7,通道512
2)全连接层(FC)
  • FC1:7×7×512 → 4096,ReLU,Dropout
  • FC2:4096 → 4096,ReLU,Dropout
  • FC3:4096 → 1000(ImageNet 类别),Softmax

参数计算

论文模型复现

使用 配置D(VGG16):13 conv(全 3×3)+3 FC,16 层(常用)

python 复制代码
import torch
import torch.nn as nn
# 使用 配置D(VGG16):13 conv(全 3×3)+3 FC,16 层(常用)
class VGG16(nn.Module):
    def __init__(self, num_classes=1000):
        super().__init__()
        self.features = nn.Sequential(
            # Block1
            nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            # Block2
            nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=128, out_channels=128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            # Block3
            nn.Conv2d(in_channels=128, out_channels=256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=256, out_channels=256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=256, out_channels=256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            # Block4
            nn.Conv2d(in_channels=256, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
            # Block5
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2),
        )
        self.classifier = nn.Sequential(
            nn.Linear(in_features=512*7*7, out_features=4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(in_channels=4096, out_features=4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(in_channels=4096, out_features=num_classes),
        )

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x

# 测试
model = VGG16()
x = torch.randn(1, 3, 224, 224)
print(model(x).shape)  # torch.Size([1, 1000])
相关推荐
星恒随风2 天前
从零开始理解 CNN(上):为什么图像任务需要卷积神经网络?
人工智能·笔记·神经网络·学习·cnn
星恒随风2 天前
从零开始理解 CNN(下):拆开卷积层、池化层、通道数和训练流程
人工智能·笔记·深度学习·神经网络·学习·cnn
羊羊小栈2 天前
基于多时间序列模型和大语言模型的航海轨迹预测分析预警系统( LSTM、GRU、Transformer、CNN-LSTM、DLinear)
人工智能·语言模型·cnn·gru·毕业设计·lstm·transformer
仙女修炼史2 天前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
现代野蛮人2 天前
【深度学习】 —— 轻松玩转数据增强
人工智能·深度学习·cnn·tensorflow
weixin_550083154 天前
PyTorch 实战:从零搭建手写数字识别系统(CNN 卷积神经网络)从理论到实践,手把手教你用 PyTorch 实现 99.38% 准确率的手写数字识别
开发语言·python·学习·cnn·课程设计·手写数字识别
weixin_550083154 天前
PyTorch 实战:从零搭建手写数字识别系统(CNN 卷积神经网络)
人工智能·pytorch·cnn
大模型任我行4 天前
人大:揭示大模型推理的几何约束机制
人工智能·语言模型·自然语言处理·论文笔记
香蕉鼠片5 天前
CNN学习时的代码
人工智能·学习·cnn