深度学习-VGG16原理和代码详解

VGG16 原理和代码详解

VGG16 是由牛津大学的 Visual Geometry Group (VGG) 提出的深度卷积神经网络,发表于 2014 年的论文 "Very Deep Convolutional Networks for Large-Scale Image Recognition"。VGG16 是其中的一种结构,由 16 层网络组成,主要用于图像分类任务。

VGG16 结构

VGG16 主要由以下几部分组成:

  • 卷积层 (Convolutional Layers) :在 VGG16 中,所有卷积层使用 3x3 的滤波器,步长为 1,填充为 1,以确保输出的空间分辨率与输入相同。
  • 池化层 (Pooling Layers) :VGG16 使用 2x2 的最大池化层,步长为 2,减少空间维度。
  • 全连接层 (Fully Connected Layers):最后,网络有三个全连接层,其中前两个有 4096 个节点,最后一个是 1000 个节点(用于 1000 类别分类)。
  • 激活函数 (Activation Functions):VGG16 使用 ReLU 激活函数。

VGG16 网络可以表示为:

  • 输入: 224x224x3
  • 卷积层1: 两个 64 个滤波器的 3x3 卷积层
  • 最大池化层1: 2x2 最大池化
  • 卷积层2: 两个 128 个滤波器的 3x3 卷积层
  • 最大池化层2: 2x2 最大池化
  • 卷积层3: 三个 256 个滤波器的 3x3 卷积层
  • 最大池化层3: 2x2 最大池化
  • 卷积层4: 三个 512 个滤波器的 3x3 卷积层
  • 最大池化层4: 2x2 最大池化
  • 卷积层5: 三个 512 个滤波器的 3x3 卷积层
  • 最大池化层5: 2x2 最大池化
  • 全连接层1: 4096 个节点
  • 全连接层2: 4096 个节点
  • 全连接层3: 1000 个节点(Softmax 输出)

以下是一个 VGG16 的代码实现,并带有逐句解释:

python 复制代码
import tensorflow as tf
from tensorflow.keras import layers, models

# 定义 VGG16 模型
# 导入库:
import tensorflow as tf
from tensorflow.keras import layers, models

# 这部分导入了 TensorFlow 以及 Keras 库中的层和模型模块,方便我们定义神经网络模型。

# 定义 VGG16 模型函数:
def VGG16():
    model = models.Sequential()
    # 这里定义了一个 VGG16 模型的函数 VGG16(),并初始化一个 Sequential 模型,用于按顺序堆叠各层。

    # 第1个卷积块:
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same', input_shape=(224, 224, 3)))
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 第一个卷积层使用 64 个 3x3 的滤波器,padding='same' 表示输出的尺寸与输入相同。
    # input_shape=(224, 224, 3) 指定输入图像的大小为 224x224x3 (RGB 图像)。
    # 第二个卷积层也使用 64 个 3x3 的滤波器。
    # 最后使用 2x2 的最大池化层,将特征图的尺寸减半。

    # 第2个卷积块:
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 同样地,使用两个 128 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第3个卷积块:
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 这个卷积块使用了三个 256 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第4个卷积块:
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 同样地,使用了三个 512 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第5个卷积块:
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 与第4个卷积块相同,使用三个 512 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 全连接层:
    model.add(layers.Flatten())
    model.add(layers.Dense(4096, activation='relu'))
    model.add(layers.Dense(4096, activation='relu'))
    model.add(layers.Dense(1000, activation='softmax'))
    # 使用 Flatten() 将多维特征图展平为一维。
    # 添加两个全连接层,每层有 4096 个节点,并使用 ReLU 激活函数。
    # 最后一层是输出层,有 1000 个节点,对应 1000 个类别,使用 softmax 激活函数,输出概率分布。

    return model

# 创建和输出模型:
model = VGG16()
model.summary()
# 调用 VGG16() 函数来创建模型实例。
# 使用 model.summary() 来打印模型的结构和参数数量。
相关推荐
蒟蒻的贤2 分钟前
关于文法G2算符优先分析的一个坑
算法
IOT.FIVE.NO.13 分钟前
2026-05-30-Codex更新后对话消失和沙盒失效:适用人群、问题背景、解决方式与原因分析
人工智能·windows
yubo05095 分钟前
计算机视觉第八课:形状识别(自动认出 圆形、方形、三角形)
人工智能·opencv·计算机视觉
阿部多瑞 ABU7 分钟前
AI红队攻防演化史(2023-2026):从虚拟角色到RLHF劫持——所有攻击方法全景总结与最新趋势分析
网络·人工智能·安全
AsiaSun.15 分钟前
我把 Codex 协作经验,整理成了一套公共 Skills
人工智能
变量未定义~16 分钟前
单调栈、单调队列(模板)、子矩阵、连通块中点的数量、堆箱子(4星)
算法
Swift社区22 分钟前
具身智能:让AI真正“理解”物理世界
人工智能
落叶无情23 分钟前
ICEF 框架+框架动态补全机制:从零构建虚构地缘冲突分析模型
人工智能
爱分享的康康25 分钟前
低成本自动驾驶数据采集设备理性分析:康谋入门套装适配性解析
大数据·人工智能
深小乐25 分钟前
个人知识库,折腾一圈后我还是选了 Obsidian
人工智能