【GoogLeNet】基本原理

1.整体结构

看着很复杂是吧，不要着急，一层层拆解。

在2014年的ImageNet图像识别挑战赛中，一个名叫 GoogLeNet 的网络架构大放异彩。以前流行的网络使用

小到1×1，大到7×7的卷积核。本文的一个观点是，有时 使用不同大小的卷积核组合 是有利的。

在GoogLeNet中，基本的卷积块被称为Inception块(Inception block）。这很可能得名于电影《盗梦空间》（Inception），因为电

影中的一句话"我们需要走得更深"（"We need to go deeper")。

Inception块由四条并行路径组成：

【举例】：

输入为224×224×3三通道的图像。
路径1：

（1）输入为224×224×3，卷积核数量为64个；卷积核的尺寸大小为1×1×3；步幅为1（stride=1），填充为0（padding=0）；卷积后得到shape为224×224×64的特征图输出。
路径2：

（1）输入为224×224×3，卷积核数量为96个；卷积核的尺寸大小为1×1×3；步幅为1（stride=1），填充为0（padding=0）；卷积后得到shape为224×224×96的特征图输出。

（2）输入为224×224×96，卷积核数量为128个；卷积核的尺寸大小为3×3×96；步幅为1（stride=1），填充为1（padding=1）；卷积后得到shape为224×224×128的特征图输出。

路径3:

（1）输入为224×224×3，卷积核数量为16个；卷积核的尺寸大小为1×1×3；步幅为1(stride=1），填充为0(padding=0)；卷积后得到shape为224×224×16的特征图输出。

(2）输入为224×224×16，卷积核数量为32个；卷积核的尺寸大小为5×5×16；步幅为1（stride=1），填充为2（padding=2）；卷积后得到shape为224×224×32的特征图输出。
路径4：

（1）输入为224×224×3，池化感受野的尺寸大小为3×3；步幅为1（stride=1），填充为1(padding=1）；池化后得到shape为224×224×3的特征图输出。

(2）输入为224×224×3，卷积核数量为32个；卷积核的尺寸大小为1×1×3；步幅为1（stride=1），填充为0(padding=0）；卷积后得到shape为224×224×32的特征图输出。

通道合并：

路径1的到输出为：224×224×64

路径2的到输出为：224×224×128

路径3的到输出为：224×224×32

路径4的到输出为：224×224×32

最终通道合并为64+128+32+32=256，最终的输出为：224×224×256。

那么为什么GoogLeNet这个网络如此有效呢？

首先我们考虑一下滤波器（filter）（指的是卷积核）的组合，它们可以用各种滤波器尺寸（不同尺寸的卷积核）探索图像，这意味着不同大小的滤波器可以有效地识别不同范围的图像细节。同时，我们可以为不同的滤波器分配不同数量的参数。

本节的内容讲的太勉强，不够有说服力，感兴趣的去看看原视频。

注意：根据公式计算输出图大小时，Pytorch是 向下取整。

Inception块只改变输入特征图的通道数，不改变其大小

此处省略5个Inception块的计算，只给出最终结果。（计算逻辑都一样）

此处省略2个Inception块的计算，只给出最终结果。（计算逻辑都一样）