LLM常见面试题(31-35题)--深度学习基础概念

31,什么是梯度下降?

定义:一种用于最小化损失函数或目标函数,从而找到模型参数最优解的优化算法。通过在每一步沿着损失函数的负梯度方向更新参数,逐渐降低损失函数的值,直到达到局部或全局最小值。

步骤如下:

①随机初始化模型参数(权重和偏置)

②计算当前参数下损失函数的梯度。(即:损失函数对每个参数的偏导数)

③沿着梯度的反方向更新参数,以降低损失函数的值。

④重复步骤②和③,直到满足停止条件。

32.学习率是什么?

定义:用于控制模型参数更新的步长或速度,决定了在每次参数更新时,模型参数沿着梯度方向移动的大小。

较大的学习率会导致参数更新过大,可能会错过最优解。

较小的学习率会导致优化过于缓慢,需要更多的迭代次数才能达到收敛。

①固定学习率:简单直观,但需要手动选择合适的学习率,不够灵活。

②学习率衰减:随着训练的进行,逐渐降低学习率的大小,这样可以更加精细地调整模型参数。比如:指数衰减、余弦衰减、多项式衰减等。

③自适应学习率:根据参数的梯度大小动态调整学习率,当梯度较大时减小学习率,避免偏离最优解;当梯度较小时增加学习率,帮助模型更快地摆脱局部最优解。

33,怎么处理数据分布不均问题?

①重采样:对数据进行过采样(增加少数类样本)或欠采样(减少多数类样本)以平衡类别。

②合成数据生成:使用SMOTE来生成少数类的合成样本。

③改变损失函数:使用如加权交叉熵等损失函数,对不同类别的样本赋予不同的权重。

④使用集成学习。

34,LN是什么,有什么优点?

定义:对每个样本的所有激活值进行归一化,而不是依赖于小批量。它计算每个样本的均值和标准差,并对该样本的激活进行归一化。

优点:

①对批量大小不敏感:适合在小批量或批量大小为1的情况下。(如RNN)

②更好地处理序列数据:因为它对每个样本独立进行归一化,所以在处理RNN等序列模型时表现更佳,避免了批量依赖的问题。

35,BN是什么,有什么优点?

定义:在每个小批量(batch)中对激活值进行归一化。通过减去小批量的均值并除以标准差,使得每层的输入保持均值为0,方差为1.适合CNN等大规模模型,能够利用小批量数据的统计特性。

优点:

①加速收敛:通过减少内部协变量偏移,BN可以加快模型的训练速度。

②提高稳定性:有助于减少训练过程中的不稳定性。

③具有一定的正则化效果:可以减轻过拟合。

相关推荐
风铃喵游29 分钟前
让大模型调用MCP服务变得超级简单
前端·人工智能
旷世奇才李先生32 分钟前
Pillow 安装使用教程
深度学习·microsoft·pillow
booooooty1 小时前
基于Spring AI Alibaba的多智能体RAG应用
java·人工智能·spring·多智能体·rag·spring ai·ai alibaba
PyAIExplorer1 小时前
基于 OpenCV 的图像 ROI 切割实现
人工智能·opencv·计算机视觉
风口猪炒股指标1 小时前
技术分析、超短线打板模式与情绪周期理论,在市场共识的形成、分歧、瓦解过程中缘起性空的理解
人工智能·博弈论·群体博弈·人生哲学·自我引导觉醒
ai_xiaogui2 小时前
一键部署AI工具!用AIStarter快速安装ComfyUI与Stable Diffusion
人工智能·stable diffusion·部署ai工具·ai应用市场教程·sd快速部署·comfyui一键安装
聚客AI3 小时前
Embedding进化论:从Word2Vec到OpenAI三代模型技术跃迁
人工智能·llm·掘金·日新计划
weixin_387545643 小时前
深入解析 AI Gateway:新一代智能流量控制中枢
人工智能·gateway
聽雨2373 小时前
03每日简报20250705
人工智能·社交电子·娱乐·传媒·媒体
二川bro4 小时前
飞算智造JavaAI:智能编程革命——AI重构Java开发新范式
java·人工智能·重构