深度学习-批量与动量【Datawhale X 李宏毅苹果书 AI夏令营】

实际工程中使用批量和动量可以对抗鞍点或局部最小值。

批量:

在计算梯度的时候不会用所有数据计算损失。类比我们考试复习时,一个单元一个单元的知识点输入,所有单元都输入就是一整个轮回。而这一个单元用深度学习的术语来说就是批量(batch)。遍历所有批量就是一个回合(epoch)。

使用全批量的数据来更新参数的方法叫做批量梯度下降法(BGD),在下降的梯度上引入随机噪声,叫做随机梯度下降法(SGD)。

相对而言,大的批量更新比较稳定,小的批量梯度方向存在一定的噪声,有噪声的梯度反而可以帮助训练。

动量:

如果一个球从高处滚下来,由于惯性它会继续往前走,如果动量足够大,甚至可以翻越小坡继续走。这就是动量。简单些理解,在高处下落的球在滑落到局部最低的坡之后会继续往高处越,假如当前的高处有一个小坡,球还是可以越过这个小坡到达下一个最低点。

相关推荐
amhjdx1 小时前
星巽短剧以科技赋能影视创新,构建全球短剧新生态!
人工智能·科技
听风南巷2 小时前
机器人全身控制WBC理论及零空间原理解析(数学原理解析版)
人工智能·数学建模·机器人
美林数据Tempodata2 小时前
“双新”指引,AI驱动:工业数智应用生产性实践创新
大数据·人工智能·物联网·实践中心建设·金基地建设
电科_银尘3 小时前
【大语言模型】-- 私有化部署
人工智能·语言模型·自然语言处理
翔云 OCR API4 小时前
人工智能驱动下的OCR API技术演进与实践应用
人工智能·ocr
南方者5 小时前
重磅升级!文心 ERNIE-5.0 新一代原生全模态大模型,这你都不认可它吗?!
人工智能·aigc
庄周迷蝴蝶5 小时前
旋转位置编码(Rotary Position Embedding,RoPE)
人工智能·机器学习
xier_ran5 小时前
深度学习:RMSprop 优化算法详解
人工智能·深度学习·算法
大千AI助手5 小时前
Prefix-Tuning:大语言模型的高效微调新范式
人工智能·神经网络·自然语言处理·llm·prefix-tuning·大千ai助手·前缀微调
雾江流5 小时前
RikkaHub 1.6.11 | 开源的本地大型语言模型聚合应用,支持多种AI服务提供商
人工智能·语言模型·自然语言处理·软件工程