基于图像识别的迁移学习之一

会的东西有点杂2023-10-16 17:15

案例分析

加载数据部分同上一个案例，只需把数据输入到预训练的VGG-16或者ResNet50中。VGG-16的网络结构为右侧图绿色栏所示，其中block1中有2个包含64个卷积核的卷积层，block2包含2个128个卷积核的卷积层，block3有3个包含256个卷积核的卷积层，block4有3个包含512个卷积核的卷积层，block5有3个包含512个卷积核的卷积层，加上2个包含4096个神经元的全连接层和1个包含1000个神经元的全连接层。

ResNet有2个基本的block，一个是identity block，输入和输出的维度是一样的，所以可以串联多个；另外一个基本block是conv block，输入和输出的维度是不一样的，所以不能连续串联，它的作用本来就是为了改变特征向量的维度。

ResNet50网络结构中block_sizes=[3, 4, 6, 3]指的是stage1(first pool)之后的4个layer的block数，分别对应res2，res3，res4，res5，每一个layer的第一个block在shortcut上做conv+BN，即conv block。