LLM常见面试题(31-35题)--深度学习基础概念

31,什么是梯度下降?

定义:一种用于最小化损失函数或目标函数,从而找到模型参数最优解的优化算法。通过在每一步沿着损失函数的负梯度方向更新参数,逐渐降低损失函数的值,直到达到局部或全局最小值。

步骤如下:

①随机初始化模型参数(权重和偏置)

②计算当前参数下损失函数的梯度。(即:损失函数对每个参数的偏导数)

③沿着梯度的反方向更新参数,以降低损失函数的值。

④重复步骤②和③,直到满足停止条件。

32.学习率是什么?

定义:用于控制模型参数更新的步长或速度,决定了在每次参数更新时,模型参数沿着梯度方向移动的大小。

较大的学习率会导致参数更新过大,可能会错过最优解。

较小的学习率会导致优化过于缓慢,需要更多的迭代次数才能达到收敛。

①固定学习率:简单直观,但需要手动选择合适的学习率,不够灵活。

②学习率衰减:随着训练的进行,逐渐降低学习率的大小,这样可以更加精细地调整模型参数。比如:指数衰减、余弦衰减、多项式衰减等。

③自适应学习率:根据参数的梯度大小动态调整学习率,当梯度较大时减小学习率,避免偏离最优解;当梯度较小时增加学习率,帮助模型更快地摆脱局部最优解。

33,怎么处理数据分布不均问题?

①重采样:对数据进行过采样(增加少数类样本)或欠采样(减少多数类样本)以平衡类别。

②合成数据生成:使用SMOTE来生成少数类的合成样本。

③改变损失函数:使用如加权交叉熵等损失函数,对不同类别的样本赋予不同的权重。

④使用集成学习。

34,LN是什么,有什么优点?

定义:对每个样本的所有激活值进行归一化,而不是依赖于小批量。它计算每个样本的均值和标准差,并对该样本的激活进行归一化。

优点:

①对批量大小不敏感:适合在小批量或批量大小为1的情况下。(如RNN)

②更好地处理序列数据:因为它对每个样本独立进行归一化,所以在处理RNN等序列模型时表现更佳,避免了批量依赖的问题。

35,BN是什么,有什么优点?

定义:在每个小批量(batch)中对激活值进行归一化。通过减去小批量的均值并除以标准差,使得每层的输入保持均值为0,方差为1.适合CNN等大规模模型,能够利用小批量数据的统计特性。

优点:

①加速收敛:通过减少内部协变量偏移,BN可以加快模型的训练速度。

②提高稳定性:有助于减少训练过程中的不稳定性。

③具有一定的正则化效果:可以减轻过拟合。

相关推荐
java1234_小锋4 分钟前
基于Python深度学习的车辆车牌识别系统(PyTorch2卷积神经网络CNN+OpenCV4实现)视频教程 - 自定义字符图片数据集
python·深度学习·cnn·车牌识别
技术支持者python,php9 分钟前
训练模型,物体识别(opencv)
人工智能·opencv·计算机视觉
爱笑的眼睛1112 分钟前
深入理解MongoDB PyMongo API:从基础到高级实战
java·人工智能·python·ai
软件开发技术深度爱好者24 分钟前
基于多个大模型自己建造一个AI智能助手
人工智能
中國龍在廣州37 分钟前
现在人工智能的研究路径可能走反了
人工智能·算法·搜索引擎·chatgpt·机器人
攻城狮7号1 小时前
小米具身大模型 MiMo-Embodied 发布并全面开源:统一机器人与自动驾驶
人工智能·机器人·自动驾驶·开源大模型·mimo-embodied·小米具身大模型
搜移IT科技1 小时前
【无标题】2025ARCE亚洲机器人大会暨展览会将带来哪些新技术与新体验?
人工智能
信也科技布道师FTE1 小时前
当AMIS遇见AI智能体:如何为低代码开发装上“智慧大脑”?
人工智能·低代码·llm
青瓷程序设计1 小时前
植物识别系统【最新版】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
AI即插即用2 小时前
即插即用系列 | CVPR 2025 WPFormer:用于表面缺陷检测的查询式Transformer
人工智能·深度学习·yolo·目标检测·cnn·视觉检测·transformer