每天五分钟计算机视觉：ImageNet大赛的世界冠军AlexNet模型

幻风_huanfeng2023-12-05 16:49

AlexNet模型

2012 Imagenet 比赛第一，Top5准确度超出第二10% ，它让人们认识到了深度学习技术的威力。比 LeNet更深，用多层小卷积层叠加替换大卷积层，就是说每一个卷积层的通道数小，不像LeNet一样每个卷积层的通道数很大。

一张227×227×3的图片作为输入，第一层我们使用 96 个11×11 的过滤器，步幅为 4，由于步幅是 4，因此尺寸缩小到 55×55，缩小了 4 倍左右。

然后用一个 3×3 的过滤器构建最大池化层， = 3，步幅为 2，卷积层尺寸缩小为 27×27×96。接着再执行一个 5×5 的卷积，padding 之后，输出是 27×27×276。

然后再次进行最大池化，尺寸缩小到 13×13。再执行一次 same 卷积，相同的 padding，得到的结果是 13×13×384，384个过滤器。再做一次 same 卷积，就像这样。

再做一次同样的操作，最后再进行一次最大池化，尺寸缩小到 6×6×256。

6×6×256 等于 9216，将其展开为 9216 个单元，然后是一些全连接层。

最后使用 softmax 函数输出识别的结果，看它究竟是 1000 个可能的对象中的哪一个。

AlexNet 包含约 6000 万个参数。当用于训练图像和数据集时，AlexNet 能够处理非常相似的基本构造模块，这些模块往往包含着大量的隐藏单元或数据，这一点 AlexNet 表现出色。AlexNet 比 LeNet 表现更为出色的另一个原因是它使用了 ReLu 激活函数。