LLM常见面试题（31-35题）--深度学习基础概念

31，什么是梯度下降？

定义：一种用于最小化损失函数或目标函数，从而找到模型参数最优解的优化算法。通过在每一步沿着损失函数的负梯度方向更新参数，逐渐降低损失函数的值，直到达到局部或全局最小值。

步骤如下：

①随机初始化模型参数（权重和偏置）

②计算当前参数下损失函数的梯度。（即：损失函数对每个参数的偏导数）

③沿着梯度的反方向更新参数，以降低损失函数的值。

④重复步骤②和③，直到满足停止条件。

32.学习率是什么？

定义：用于控制模型参数更新的步长或速度，决定了在每次参数更新时，模型参数沿着梯度方向移动的大小。

较大的学习率会导致参数更新过大，可能会错过最优解。

较小的学习率会导致优化过于缓慢，需要更多的迭代次数才能达到收敛。

①固定学习率：简单直观，但需要手动选择合适的学习率，不够灵活。

②学习率衰减：随着训练的进行，逐渐降低学习率的大小，这样可以更加精细地调整模型参数。比如：指数衰减、余弦衰减、多项式衰减等。

③自适应学习率：根据参数的梯度大小动态调整学习率，当梯度较大时减小学习率，避免偏离最优解；当梯度较小时增加学习率，帮助模型更快地摆脱局部最优解。

33，怎么处理数据分布不均问题？

①重采样：对数据进行过采样（增加少数类样本）或欠采样（减少多数类样本）以平衡类别。

②合成数据生成：使用SMOTE来生成少数类的合成样本。

③改变损失函数：使用如加权交叉熵等损失函数，对不同类别的样本赋予不同的权重。

④使用集成学习。

34，LN是什么，有什么优点？

定义：对每个样本的所有激活值进行归一化，而不是依赖于小批量。它计算每个样本的均值和标准差，并对该样本的激活进行归一化。

优点：

①对批量大小不敏感：适合在小批量或批量大小为1的情况下。（如RNN）

②更好地处理序列数据：因为它对每个样本独立进行归一化，所以在处理RNN等序列模型时表现更佳，避免了批量依赖的问题。

35，BN是什么，有什么优点？

定义：在每个小批量（batch）中对激活值进行归一化。通过减去小批量的均值并除以标准差，使得每层的输入保持均值为0，方差为1.适合CNN等大规模模型，能够利用小批量数据的统计特性。

优点：

①加速收敛：通过减少内部协变量偏移，BN可以加快模型的训练速度。

②提高稳定性：有助于减少训练过程中的不稳定性。

③具有一定的正则化效果：可以减轻过拟合。