深度学习中，卷积层的若干思考！！！

1.卷积层有哪些基本参数?

①卷积核大小 (Kernel Size)：定义了卷积的感受野在过去常设为 5，如 LeNet-5；现在多设为 3，通过堆叠 3×33×3 的卷积核来达到更大的感受域。

②卷积核步长 (Stride)：常见设置为 1，可以覆盖所有相邻位置特征的组合；当设置为更大值时相当于对特征组合降采样。

③填充方式 (Padding)

④输入通道数：指定卷积操作时卷积核的深度

⑤输出通道数：指定卷积核的个数

感受野：CNN 每一层输出的特征图上的像素点在原始图像上映射的区域大小。

2.如何计算卷积层的输出的大小？

K 是过滤器尺寸，P 是填充，S 是步幅

3. 如何计算卷积层参数数量?

卷积层参数量 = (filter size * 前一层特征图的通道数)* 当前层 filter 数量 + 当前层 filter 数量。（卷积核长度*卷积核宽度*通道数+1）*卷积核个数

假设输入层矩阵维度是 96×96×3，第一层卷积层使用尺寸为 5×5、深度为 16 的过滤器（卷积核尺寸为 5×5、卷积核数量为 16），那么这层卷积层的参数个数为 5×5×3×16 + 16=1216 个。

4. 有哪些池化方法？

池化操作也叫做子采样(Subsampling)或降采样(Downsampling)，往往会用在卷积层之后，通过池化来降低卷积层输出的特征维度，有效减少网络参数的同时还可以防止过拟合现象。 ①最大池化和 ②平均池化以最大池化为例，池化范围(2×2)(2×2)和滑窗步长(stride=2)(stride=2) 相同，仅提取一次相同区域的范化特征

5.1*1 卷积的作用？

①加入非线性函数。卷积层之后经过激励层，提升网络的表达能力;

②对卷积核通道数进行降维和升维，减小参数量

6. 卷积层和池化层有什么区别？

①卷积层有参数，池化层没有参数；

②经过卷积层节点矩阵深度会改变。池化层不会改变节点矩阵的深度，但是它可以缩小节点矩阵的大小。

7.积核是否一定越大越好？

不一定，缺点：会导致计算量大幅增加，不利于训练更深层的模型，相应的计算性能也会降低。卷积神经网络（VGG、GoogLeNet 等），发现通过堆叠 2 个 3×3 卷积核可以获得与 5×5 卷积核相同的感受视野，同时参数量会更少（3×3×2+1 < $5\times5\times1+1$ ）

优点：文本特征有时需要有较广的感受域让模型能够组合更多的特征（如词组和字符）卷积核的大小并没有绝对的优劣，需要视具体的应用场景而定，但是极大和极小的卷积核都是不合适的，单独的 1×1 极小卷积核只能用作分离卷积而不能对输入的原始特征进行有效的组合，极大的卷积核通常会组合过多的无意义特征从而浪费了大量的计算资源。

8.卷积在图像中有什么直观作用?

用来提取图像的特征，但不同层次的卷积操作提取到的特征类型是不相同的：

浅层卷积：边缘特征

中层卷积：局部特征

深层卷积：全局特征

9.CNN 中空洞卷积的作用是什么？

空洞卷积也叫扩张卷积，在保持参数个数不变的情况下增大了卷积核的感受野，同时它可以保证输出的特征映射的大小保持不变。一个扩张率为 2 的 3×3 卷积核，感受野与 5×5 的卷积核相同，但参数数量仅为 9 个。

2.12 怎样才能减少卷积层参数量？

①使用堆叠小卷积核代替大卷积核： VGG 网络中 2 个 3×3 的卷积核可以代替 1 个 5×5 的卷积核 ②使用分离卷积操作：将原本 K×K×C 的卷积操作分离为 K×K×1 和 1×1×C 的两部分操作

③添加 1×1 的卷积操作：与分离卷积类似，但是通道数可变，在 K×K×C1 卷积前添加 1×1×C2 的卷积核（满足 C2<C1)

④在卷积层前使用池化操作：池化可以降低卷积层的输入特征维度

10.在进行卷积操作时，必须同时考虑通道和区域吗？

①标准卷积同时考虑通道和区域

②通道分离（深度分离）卷积网络(Xception 网络): 首先对每一个通道进行各自的卷积操作，有多少个通道就有多少个过滤器。得到新的通道特征矩阵之后，再对这批新通道特征进行标准的 1×1 跨通道卷积操

11.采用宽卷积,窄卷积的好处有什么？

宽卷积、窄卷积其实是一种填充方式。

①宽卷积('SAME'填充)：对卷积核不满足整除条件的输入特征进行补全，以使卷积层的输出维度保持与输入特征维度一致。

②窄卷积('VALID'填充): 不进行任何填充，在输入特征边缘位置若不足以进行卷积操作，则对边缘信息进行舍弃,因此在步长为 1 的情况下该填充方式的卷积层输出特征维度可能会略小于输入特征的维度

12.如何提高卷积神经网络的泛化能力

13.卷积神经网络在 NLP 与 CV 领域应用的区别?

自然语言处理对一维信号（词序列）做操作，输入数据通常是离散取值（例如表示一个单词或字母通常表示为词典中的 one hot 向量）

计算机视觉则是对二维（图像）或三维（视频流）信号做操作。输入数据是连续取值（比如归一化到 0， 1之间的- 灰度值）

14. 全连接、局部连接、全卷积与局部卷积的区别

15.卷积层和全连接层的区别？

1.卷积层是局部连接，所以提取的是局部信息；全连接层是全局连接，所以提取的是全局信息；

2.当卷积层的局部连接是全局连接时，全连接层是卷积层的特例

16.卷积神经网络的优点？为什么用小卷积核？

多个小的卷积核叠加使用要远比一个大的卷积核单独使用效果要好的多。

1.局部连接这个是最容易想到的，每个神经元不再和上一层的所有神经元相连，而只和一小部分神经元相连。这样就减少了很多参数。

2.权值共享一组连接可以共享同一个权重，而不是每个连接有一个不同的权重，这样又减少了很多参数。

3.下采样 Pooling 层利用图像局部相关性的原理，对图像进行子抽样，可以减少数据处理量同时保留有用信息。通过去掉 Feature Map 中不重要的样本，进一步减少参数数量

17.CNN 拆成 3x1 1x3 的优点？

为了压缩模型参数量（这里参数由 3x3=9 降低到 1x3+3x1=6），但是计算量基本没变（乘数目没变）