VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION--论文笔记

论文笔记

论文来源

Very Deep Convolutional Networks for Large-Scale Image Recognition

代码来源

还没上传

数据集

这里采用的是猫狗数据集

还没上传

1论文摘要的翻译

在这项工作中，我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我们的主要贡献是使用具有非常小(3 × 3)卷积滤波器的架构对增加深度的网络进行全面评估，这表明通过将深度推至16-19权重层可以实现对现有技术配置的显着改进。这些发现是我们2014年ImageNet挑战赛提交的基础，我们的团队分别在本地化和分类轨道中获得了第一名和第二名。我们还表明，我们的表示可以很好地推广到其他数据集，从而获得最先进的结果。我们已经公开了两个表现最好的ConvNet模型，以促进在计算机视觉中使用深度视觉表示的进一步研究。

2论文的创新点

使用具有非常小(3 × 3)卷积滤波器的架构对增加深度的网络
从卷积网络的深度来考虑，通过添加卷积层来增加深度
三层非线性纠偏而不是单一的纠偏层，使决策函数更具判别性

3 论文方法的概述

3.1 ARCHITECTURE

图片固定大小 224 * 224

并减去RGB均值

模型架构：

卷积层：卷积核3 * 3 或这个1 * 1 padding 为1 stride 为1

池化：最大池化（2 * 2, stride = 2）

模型配置

网络A中的11个权重层(8个卷积层和3个FC层)到网络E中的19个权重层(16个卷积层和3个FC层)。卷积层的宽度(通道的数量)相当小，从第一层的64开始，然后在每个最大池化层之后增加2倍，直到达到512。如下图所示。

最大池化在一个2 × 2像素的窗口上执行，步幅为2
所有函数使用了Rulu函数

模型参数对比

下表中是每个配置的参数数量。尽管深度很大，但网络中的权重数量并不大于具有更大卷积层宽度和接受域的更浅的网络中的权重数量

3.2训练框架

训练是遵循带动量的小批量梯度下降(基于反向传播)优化多项逻辑回归目标来进行的。批量大小设置为256，动量设置为0.9。训练通过权重衰减(L2正则项为 5 ∗ 1 0 − 4 5*10^{-4} 5∗10−4)和前两个完全连接层的dropout正则化(dropout ratio设置为0.5)进行正则化。

学习率最初设置为10−2，当验证集精度停止提高时，学习率降低10倍。

图像预处理：随机裁剪固定图像大小裁剪224 * 224

当图大小 S > 224 S>224 S>224时候，包含小物体或一个物体部分即可， S = 224 S= 224 S=224时，可以完全训练完整图像数据

数据增强：随机水平翻转，随机RGB颜色偏移

网络采取随机初始化（平均值为零、方差为10 - 2的正态分布中采样权重），避免学习停滞，biases偏差初始值为零。

3.3测试框架

首先，将其各向同性地重新缩放到预定义的最小图像边，记为Q(我们也称其为测试尺度)。
我们还通过水平翻转图像来扩大测试集;对原始图像和翻转图像的软最大类后验进行平均，得到图像的最终分数。

4 论文实验

数据集

ILSVRC-2012数据集

该数据集包括1000个类的图像，并分为三组:训练(1.3M图像)，验证(50K图像)和测试(100K带有固定类标签的图像)。

4.1 单尺度评价

测试图像大小设置如下:固定 S S S为 Q = S Q = S Q=S，抖动 S ∈ [ S m i n , S m a x ] S∈[S_{min}, S_{max}] S∈[Smin,Smax]为Q = 0.5( S m i n + S m a x S_{min} + S_{max} Smin+Smax)。的结果如下表所示。
分析结果

在没有任何归一化层的情况下，使用局部响应归一化(A- LRN网络)并不能改善模型A。因此，我们不会在更深的架构(B-E)中使用规范化。
分类误差随着卷积神经网络深度的增加而减小:从A的11层到e的19层。值得注意的是，尽管深度相同，配置C(包含三个1 × 1的卷积层)的性能比使用3 × 3卷积的配置D差
训练时尺度抖动( S ∈ [ 256 ; 512 ] S∈[256;512] S∈[256;512])的结果明显好于对固定最小边的图像进行训练( S = 256 S = 256 S=256或 S = 384 S = 384 S=384)，即使在测试时使用单一尺度。这证实了通过尺度抖动增强训练集确实有助于捕获多尺度图像统计。

4.2 多尺度评价

在单一尺度上评估了卷积神经网络模型之后，现在评估尺度抖动在测试时的影响。它包括在测试图像的几个重新缩放版本上运行一个模型(对应于不同的Q值)，然后对结果类后验进行平均。考虑到训练尺度和测试尺度之间的较大差异会导致性能下降，使用固定S训练的模型在接近训练图像的三种测试图像尺寸上进行评估:Q = { S − 32 , S , S + 32 } \{S−32,S, S + 32\} {S−32,S,S+32}。同时，训练时的尺度抖动使得网络在测试时可以应用于更大范围的尺度，所以用变量 S ∈ [ S m i n , S m a x ] S∈[S_{min}, S_{max}] S∈[Smin,Smax], Q = { S m i n , 0.5 ∗ ( S m i n + S m a x ) ， S m a x } Q = \{S_{min}, 0.5*(S_{min} + S_{max})， S_{max}\} Q={Smin,0.5∗(Smin+Smax)，Smax}。

如下表所示的结果表明，测试时的尺度抖动会带来更好的性能(与在单个尺度上评估同一模型相比，如表3所示)。与之前一样，最深配置(D和E)表现最好，并且尺度抖动优于固定最小侧s的训练。我们在验证集上的最佳单网络性能为24.8%/7.5% top-1/top-5误差(表4中粗体突出显示)。配置E达到7.3%的top-5误差。

4.3 MULTI-CROP EVALUATION

multi-crop

经常使用的卷积层+全连接层。通过将测试图片缩放到不同大小Q，Q可以不等于S(训练时图片大小)。在QQ图片上裁剪出多个SS的图像块，将这些图像块进行测试，得到多个1*n维的向量。通过对这些向量每一纬求平均，得到在某一类上的概率。这种方法叫做multi-crop。

我们比较了密集卷积神经网络评价与MULTI-CROP EVALUATION)。我们还通过平均其softmax输出来评估两种评估技术的互补性。结果如下表，可以看出，使用MULTI-CROP的性能略好于dense evaluation，并且这两种方法确实是互补的，因为它们的组合优于它们中的任何一种

5 总结

在这项工作中，我们评估了用于大规模图像分类的非常深的卷积网络(多达19个权重层)。

研究表明，表示深度有利于分类精度，并且使用传统的ConvNet架构可以在ImageNet挑战数据集上实现最先进的性能，深度大幅增加。