【小笔记】算法训练基础超参数调优思路

【学而不思则罔,思维不学则怠】

本文总结一下常见的一些算法训练超参数调优思路(陆续总结更新),包括:

  • batchsize
  • 学习率
  • epochs
  • dropout(待添加)

Batch_size

2023.9.29

  • 简单来说,较大的bz可以加快训练速度,特别是基于GPU进行模型训练时,应该在显存允许范围内,尽量使用较大的bz。
  • 两个极端:假设内存/显存足够大,每次都是使用全量数据进行梯度计算,此时训练效率最高,但训练极容易陷入鞍点(局部最优)而无法跳出,表现出来就是loss还比较高,但是已经开始收敛了。
  • 但bz不是说越大越好,越大bz意味着用更多的数据来计算梯度,越容易陷入鞍点,但若batch数量较多,则当一个batch的数据使算法陷入鞍点了,另一个batch的数据有机会使算法跳出鞍点。
  • 因此bz尽可能选大一些,同时保证batch数量不太少,最简单的方法就是从GPU显存或CPU内存运行的最大值开始实验,若发现出现了loss过早收敛且比较高时(陷入鞍点),此时则放弃充分利用GPU,而应考虑减少bz,使loss能够继续下降。
  • 结论:从显存/内容利用率角度和防止陷入鞍点两个角度来思考bz。

学习率

2024.1.16

  • lr若太大,则会导致训练波动,不容易收敛,表现出来就是算法的loss在下降一段时间后,又突然增加,然后又下降,然后有增加,就像乒乓球落地上,弹弹弹。loss曲线并不光滑,如锯齿版的下降(就像下图的样子)。甚至始终无法收敛。
  • lr若太小,最大的问题就是需要更长的时间来进行收敛。
  • 对lr的设置除了经验值外,就是观看loss收敛情况。

epochs

2024.1.16

  • 它就很简单了,先推荐设置一个较大的值,然后观察能收敛的epoch即可

dropout

待添加

相关推荐
二哈不在线7 分钟前
代码随想录二刷之“贪心算法”~GO
算法·贪心算法·golang
快去睡觉~7 分钟前
力扣416:分割等和子集
数据结构·c++·算法·leetcode·职场和发展·动态规划
仙俊红10 分钟前
LeetCode每日一题,2025-9-5
算法·leetcode·职场和发展
非门由也14 分钟前
《sklearn机器学习——聚类性能指数》同质性,完整性和 V-measure
机器学习·聚类·sklearn
阿维的博客日记14 分钟前
LeetCode 240: 搜索二维矩阵 II - 算法详解(秒懂系列
算法·leetcode·矩阵
骑驴看星星a17 分钟前
三维聚类建模
机器学习·数据挖掘·聚类
闻道且行之17 分钟前
嵌入式|Linux中打开视频流的两种方式V4l2和opencv
linux·笔记·opencv·嵌入式
非门由也17 分钟前
《sklearn机器学习——聚类性能指标》调整兰德指数、基于互信息(mutual information)的得分
机器学习·聚类·sklearn
于顾而言25 分钟前
【笔记】Software Engineering at Google
笔记·log4j·软件工程
小O的算法实验室42 分钟前
2024年ASOC SCI2区TOP,有效离散人工蜂群算法+变压器制造矩形切割问题,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进