三、CV_VGGnet

三、VGGnet

1.VGG网络架构

VGG可以看成是加深版的AlexNet,整个网络由卷积层和全连接层叠加而成,和AlexNet不同的是,VGG中使用的都是小尺寸的卷积核(3 ×\times× 3)。

VGGNet使用的全部都是3 ×\times× 3的小卷积核和2 ×\times× 2的池化核,通过不断加深网络来提升性能。VGG可通过重复使用简单的基础块来构建深度模型

在tf.keras中实现VGG模型,首先来实现VGG块,它的组成规律是:连续使用多个相同的填充为1、卷积核大小为3 ×\times× 3的卷积层后接上一个步幅为2,窗口形状为2 ×\times× 2的最大池化层。卷积层保持输入高的宽不变,而池化层则对其减半。我们使用vgg_block函数来实现这个基础的VGG块,它可以指定卷积层的数量num_convs和每层的卷积核个数num_filters.

python 复制代码
# 定义VGG网络中的卷积块:卷积层的个数,卷积层中卷积核的个数
def vgg_block(num_convs, num_filters):
    blk = tf.keras.models.Squential()
    for _ in range(num_convs):
        blk.add(tf.keras.layers.Conv2D(num_filters, kernel_size = 3, padding = 'same', activation = 'relu'))

        # 卷积块最后一个是最大池化,窗口大小为2*2,步长为2
        blk.add(tf.keras.layers.MaxPool2D(pool_size = 2, strides = 2))
        return blk

VGG16网络有五个卷积块,前2块使用两个卷积层,而后三块使用三个卷积层。第一块的输出通道是64,之后每次对输出通道数翻倍,直到变为512

python 复制代码
# 定义5个卷积块,指明每个卷积层个数及相应的卷积核个数
conv_arch = ((2, 64), (2, 128), (3, 256), (3, 512), (3, 512))

这个网络使用了13个卷积层和3个全连接层,通过指定conv_arch得到模型架构后构建VGG16

python 复制代码
def vgg(conv_arch):
    # 构建序列模型
    net = tf.keras.models.Squential()
    # 根据conv_arch生成卷积部分
    for (num_convs, num_filters) in conv_arch:
        net.add(vgg_block(num_convs, num_filters))

    # 卷积块序列后添加全连接层
    net.add(tf.keras.models.Squential([
        tf.keras.layers.Flatten(),
        tf.keras.layers.Dense(4096, activation = 'relu'),
        tf.keras.layers.Dropout(0.5),
        tf.keras.layers.Dense(4096, activation = 'relu'),
        tf.keras.layers.Dropout(0.5),
        tf.keras.layers.Dense(10, activation = 'Softmax')
    ]))

    return net

# 网络实例化
net = vgg(conv_arch)

构造一个高宽均为224的单通道数据样本来看一下模型架构

python 复制代码
X = tf.random.uniform((1, 224, 224, 1))
y = net(X)

net.summary() # 查看网络形状

2.手写数字识别

读取数据时需将图像高和宽扩大到VggNet使用的图像高和宽224,这个通过tf.image.resize_with_pad来实现

(1)数据读取

获取数据并进行维度调整

python 复制代码
import numpy as np
(train_images,  train_labels), (test_images, test_labels) = mnist.load_data()

train_images = np.reshape(train_images, (train_images.shape[0], train_images.shape[1], train_images.shape[2], 1))
test_images = np.reshape(test_images, (test_images.shape[0], test_images.shape[1], test_images.shape[2], 1))

定义两个方法获取部分数据,并将图像调整为224*224大小,进行模型训练

python 复制代码
# 定义两个样本随机抽取部分样本演示
# 获取训练集数据
def get_train(size):
    index = np.random.randint(0, np.shape(train_images)[0], size)

    resize_images = tf.image.resize_with_pad(train_images[index], 224, 224, )

    return resize_images.numpy() ,train_labels[index]

# 获取测试集数据
def get_test(size):
    index = np.random.randint(0, np.shape(test_images)[0], size)

    resize_images = tf.image.resize_witn_pad(test_images[index], 224, 224, )

    return resize_images.numpy(), test_labels[index]

调用上述两个方法,获取参与模型训练及测试的数据集

python 复制代码
train_images, train_labels = get_train(256)
test_images, test_labels = get_test(128)

(2)模型编译

python 复制代码
# 指定优化器,损失函数和评价指标
optimizer = tf.keras.optimizers.SGD(learning_rate = 0.01, momentum = 0.0)

net.compile(
    optimizer = optimizer,
    loss = 'sparse_categorical_crossentropy',
    metrics = ['accuracy']
)

(3)模型训练

python 复制代码
net.fit(train_images, traim_labels, batch_size = 128, epoch = 3, verbose = 1, validation_split = 0.1)

(4)模型评估

python 复制代码
net.evaluate(test_images, test_labels, verbose = 1)
相关推荐
小陈工1 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬5 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志5 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114246 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠6 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光6 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好6 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力6 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo6 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_7 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能