[动手学习深度学习]26. 网络中的网络 NiN

前面的LeNet、AlexNet、VGG在设计上的共同之处在于：先以卷积层构成的模块充分抽取空间特征，再以全连接层构成的模块来输出分类结果

其中AlexNet和VGG对LeNet的改进主要在于如何对这两个模块价款（增加通道数）和加深

这一节的NiN提出另一个思路：串联多个由卷积层和"全连接"层构成的小网络来构建一个深层网络

（NiN现在用的不多，但是这里提出的思路用的很多）

全连接层的问题

前面几个网络都在最后用了比较大的全连接层，最后再通过一个全连接层进行输出

但是全连接层非常占用空间，网络的所有参数基本都在全连接层

1个卷积层后跟2个全连接层（11的卷积层等价于是全连接层）
步幅1，无填充，输出形状和卷积层输出一样，也不会改变通道数

这里两个1 1的卷积层，其实是当作全连接层用的，他唯一的作用是对每个通道进行混合

无全连接层
交替使用NiN块和步幅为2的最大池化层
- 逐步减小高宽和增大通道数
最后使用全局平均池化层得到输出
- 全局平均池化层：池化层的高宽=输入的高宽 -> 取每一个通道的最大值
- 输入通道数是类别数
（如：若在最后的全局池化层输入的通道是1000的话，对每一个通道拿出一个值，把这个值当作这个类别的预测，再加上softmax就是类别的概率了）

所以最后也不需要使用全连接层->这是一个非常极端的设计

所以NiN相对于前面结构比较简单，参数个数非常少（因为没有全连接层）