技术栈
学习率
大千AI助手
21 天前
人工智能
·
深度学习
·
大模型
·
模型训练
·
学习率
·
warmup
·
线性预热机制
线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
青橘MATLAB学习
5 个月前
人工智能
·
机器学习
·
梯度下降
·
超参数优化
·
学习率
·
衰减方法
·
模型收敛
机器学习中的学习率及其衰减方法全面解析
摘要: 本文深入解析机器学习中的学习率及其衰减方法,涵盖学习率的作用、常用衰减参数及七种主流衰减策略(分段常数、指数、自然指数、多项式、余弦、线性余弦、噪声线性余弦)。通过公式推导与图示对比,揭示不同衰减方式的适用场景与性能差异,并结合实际训练需求指导超参数调优。关键词:学习率、衰减方法、梯度下降、超参数优化、模型收敛。
Ronin-Lotus
6 个月前
人工智能
·
pytorch
·
python
·
深度学习
·
paddlepaddle
·
batch
·
学习率
深度学习篇---模型参数调优
本文简单介绍了深度学习中的epoch、batch、learning-rate参数大小对模型训练的影响,以及怎样进行适当调优。
MK422
1 年前
transformers
·
学习率
·
warmup
·
lr_scheduler
·
cosine
transformers进行学习率调整lr_scheduler(warmup)
Warmup(预热)是深度学习训练中的一种技巧,旨在逐步增加学习率以稳定训练过程,特别是在训练的早期阶段。它主要用于防止在训练初期因学习率过大导致的模型参数剧烈波动或不稳定。预热阶段通常是指在训练开始时,通过多个步长逐步将学习率从一个较低的值增加到目标值(通常是预定义的最大学习率)。
颹蕭蕭
1 年前
微调
·
bert
·
ner
·
学习率
·
batchsize
BERT ner 微调参数的选择
针对批大小和学习率的组合进行收敛速度测试,结论:画图代码(deepseek生成):微调命令日志
我是有底线的