神经网络八股（1）

1.什么是有监督学习，无监督学习

有监督学习是带有标签的，无监督学习是没有标签的，简单来说就是有监督学习的输入输出都是固定的，已知的，无监督学习输入是已知的，输出是不固定的，无监督学习是通过数据发现规律和经验，进而产生输出的

2.卷积的作用

核心作用是通过与一个特定的核（或滤波器）进行运算。在不同领域中实现信号或数据的特征提取、滤波、增强等功能。它的核心优势在于能够通过简单的数学运算实现复杂的特征学习和变换，同时减少计算量和参数数量。

卷积的计算公式：

3.池化层的作用

池化层主要作用是降低数据的空间维度，提取重要的特征，并且提高模型的计算效率。池化层通常在卷积层之后使用，可以分为最大池化（Max Pooling）和平均池化（Average Pooling）两种类型。

降维，减少数据计算量，特征提取，提取图像主要信息，减轻过拟合，减少模型参数量

4.全连接层作用

特征整合**：**卷积层和池化层提取的特征通常是局部的、分布式的，而全连接层通过大量的神经元之间的连接，将这些局部特征组合成更高级别的全局特征表示。

分类或回归：全连接层的最终输出通常用于分类或回归任务。在分类任务中，最后一个全连接层的输出神经元数量通常与类别数量相同。在回归任务中，最后一个全连接层通常只有一个输出神经元，用于预测连续的数值。

输出层特征映射：全连接层中的每个神经元都与前一层的所有神经元相连，这种密集的连接方式使得全连接层能够学习到非常复杂的特征组合和映射关系

隐藏层维度变化

5.什么是空洞卷积

空洞卷积（Dilated Convolution）是一种特殊的卷积操作，通过引入一个称为"扩张率"（dilation rate）的参数，在卷积核中插入间隔，从而扩大感受野，同时保持计算效率。当扩张率为1时，空洞卷积等同于普通卷积；当扩张率大于1时，卷积核会在采样点之间跳过一定数量的像素，从而覆盖更大的区域。空洞卷积可以任意扩大感受野，且不需要引入额外参数

6.1*1卷积的作用

1x1卷积，也称为点卷积，其卷积核大小为1。

通道数变换：可以将输入特征图的通道数从Cin变换为C_out，而不需要改变特征图的空间维度

线性组合:由于1x1卷积核只覆盖一个像素点，因此它实际上是在对每个像素点的通道值进行加权求和。这可以用于提取特征图中的有用信息，或者进行特征的线性变换。

7.训练策略

优化技术：

学习率调整（如余弦退火）或周期性学习率调整

优化器选择：Adam,SGD

批量大小调整：较大的批量可以提高计算效率，但可能导致过拟合；较小的批量可以提高泛化能力，但可能增加训练时间

梯度累积：梯度累积技术可以在小批量训练中模拟大批量的效果

泛化技术：

正则化：使用L1、L2正则化或Dropout可以有效防止模型过拟合

数据增强：对训练数据进行变换（如旋转、缩放、平移等）

早停机制：在验证集性能不再提升时提前停止训练，结合学习率衰减策略，可以避免过拟合

8.什么是过拟合和欠拟合，有什么方法解决

欠拟合是在训练集和测试集上误差都很高，网络没有学习到数据背后的规律和结构，没有学习到有用的特征，只是学习到了一些噪声和表面的东西。

过拟合就是训练集上表现得太好了，在测试集上反而表现得不好，原因就是在训练集上学习的只是一些简单的特征，从而削弱了该模型的泛化性导致在测试集上表现不好。

解决办法：欠拟合很明显就是训练不够彻底，可以选择增加模型的复杂度，增加训练集数据样本多样性，多用数据增强技术。过拟合就是训练的过头了，拟合的太好了，可以采用一些较为简单的模型，或者采用正则化，如dropout，减少特征维度。

9.有什么激活函数

神经网络非线性

sigmoid(二分类)， relu ,tanh，leakyRelu, softmax（多分类）

leakrelu解决了ReLU的"死亡ReLU"问题，即使输入小于0，也有非零梯度

10.为什么Relu比Sigmod好

因为sigmod在梯度过大过小的时候存在梯度饱和问题，会发生梯度消失问题，而relu在大于0时候则不会发生梯度消失问题，稀疏性：当神经元输出小于0的时候经过relu的时候输出为0，会让神经元失活，类似dropout的效果。

本篇文章源自对知乎fp16占几个字节博主得学习