深度学习-VGG16原理和代码详解

VGG16 原理和代码详解

VGG16 是由牛津大学的 Visual Geometry Group (VGG) 提出的深度卷积神经网络,发表于 2014 年的论文 "Very Deep Convolutional Networks for Large-Scale Image Recognition"。VGG16 是其中的一种结构,由 16 层网络组成,主要用于图像分类任务。

VGG16 结构

VGG16 主要由以下几部分组成:

  • 卷积层 (Convolutional Layers) :在 VGG16 中,所有卷积层使用 3x3 的滤波器,步长为 1,填充为 1,以确保输出的空间分辨率与输入相同。
  • 池化层 (Pooling Layers) :VGG16 使用 2x2 的最大池化层,步长为 2,减少空间维度。
  • 全连接层 (Fully Connected Layers):最后,网络有三个全连接层,其中前两个有 4096 个节点,最后一个是 1000 个节点(用于 1000 类别分类)。
  • 激活函数 (Activation Functions):VGG16 使用 ReLU 激活函数。

VGG16 网络可以表示为:

  • 输入: 224x224x3
  • 卷积层1: 两个 64 个滤波器的 3x3 卷积层
  • 最大池化层1: 2x2 最大池化
  • 卷积层2: 两个 128 个滤波器的 3x3 卷积层
  • 最大池化层2: 2x2 最大池化
  • 卷积层3: 三个 256 个滤波器的 3x3 卷积层
  • 最大池化层3: 2x2 最大池化
  • 卷积层4: 三个 512 个滤波器的 3x3 卷积层
  • 最大池化层4: 2x2 最大池化
  • 卷积层5: 三个 512 个滤波器的 3x3 卷积层
  • 最大池化层5: 2x2 最大池化
  • 全连接层1: 4096 个节点
  • 全连接层2: 4096 个节点
  • 全连接层3: 1000 个节点(Softmax 输出)

以下是一个 VGG16 的代码实现,并带有逐句解释:

python 复制代码
import tensorflow as tf
from tensorflow.keras import layers, models

# 定义 VGG16 模型
# 导入库:
import tensorflow as tf
from tensorflow.keras import layers, models

# 这部分导入了 TensorFlow 以及 Keras 库中的层和模型模块,方便我们定义神经网络模型。

# 定义 VGG16 模型函数:
def VGG16():
    model = models.Sequential()
    # 这里定义了一个 VGG16 模型的函数 VGG16(),并初始化一个 Sequential 模型,用于按顺序堆叠各层。

    # 第1个卷积块:
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same', input_shape=(224, 224, 3)))
    model.add(layers.Conv2D(64, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 第一个卷积层使用 64 个 3x3 的滤波器,padding='same' 表示输出的尺寸与输入相同。
    # input_shape=(224, 224, 3) 指定输入图像的大小为 224x224x3 (RGB 图像)。
    # 第二个卷积层也使用 64 个 3x3 的滤波器。
    # 最后使用 2x2 的最大池化层,将特征图的尺寸减半。

    # 第2个卷积块:
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(128, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 同样地,使用两个 128 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第3个卷积块:
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(256, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 这个卷积块使用了三个 256 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第4个卷积块:
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 同样地,使用了三个 512 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 第5个卷积块:
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.Conv2D(512, (3, 3), activation='relu', padding='same'))
    model.add(layers.MaxPooling2D((2, 2), strides=(2, 2)))
    # 与第4个卷积块相同,使用三个 512 个 3x3 的卷积层和一个 2x2 的最大池化层。

    # 全连接层:
    model.add(layers.Flatten())
    model.add(layers.Dense(4096, activation='relu'))
    model.add(layers.Dense(4096, activation='relu'))
    model.add(layers.Dense(1000, activation='softmax'))
    # 使用 Flatten() 将多维特征图展平为一维。
    # 添加两个全连接层,每层有 4096 个节点,并使用 ReLU 激活函数。
    # 最后一层是输出层,有 1000 个节点,对应 1000 个类别,使用 softmax 激活函数,输出概率分布。

    return model

# 创建和输出模型:
model = VGG16()
model.summary()
# 调用 VGG16() 函数来创建模型实例。
# 使用 model.summary() 来打印模型的结构和参数数量。
相关推荐
听风吹等浪起3 分钟前
改进系列(3):基于ResNet网络与CBAM模块融合实现的生活垃圾分类
网络·深度学习·神经网络·分类·生活
Chef_Chen7 分钟前
从0开始学习机器学习--Day19--学习曲线
人工智能·学习·机器学习
计算机科研狗@OUC19 分钟前
【TMM2024】Frequency-Guided Spatial Adaptation for Camouflaged Object Detection
人工智能·深度学习·目标检测·计算机视觉
悟兰因w26 分钟前
论文阅读(三十五):Boundary-guided network for camouflaged object detection
论文阅读·人工智能·目标检测
大山同学28 分钟前
多机器人图优化:2024ICARA开源
人工智能·语言模型·机器人·去中心化·slam·感知定位
Topstip35 分钟前
Gemini 对话机器人加入开源盲水印技术来检测 AI 生成的内容
人工智能·ai·机器人
Bearnaise38 分钟前
PointMamba: A Simple State Space Model for Point Cloud Analysis——点云论文阅读(10)
论文阅读·笔记·python·深度学习·机器学习·计算机视觉·3d
shymoy43 分钟前
Radix Sorts
数据结构·算法·排序算法
小嗷犬1 小时前
【论文笔记】VCoder: Versatile Vision Encoders for Multimodal Large Language Models
论文阅读·人工智能·语言模型·大模型·多模态
风影小子1 小时前
注册登录学生管理系统小项目
算法