深度学习-批量与动量【Datawhale X 李宏毅苹果书 AI夏令营】

实际工程中使用批量和动量可以对抗鞍点或局部最小值。

批量:

在计算梯度的时候不会用所有数据计算损失。类比我们考试复习时,一个单元一个单元的知识点输入,所有单元都输入就是一整个轮回。而这一个单元用深度学习的术语来说就是批量(batch)。遍历所有批量就是一个回合(epoch)。

使用全批量的数据来更新参数的方法叫做批量梯度下降法(BGD),在下降的梯度上引入随机噪声,叫做随机梯度下降法(SGD)。

相对而言,大的批量更新比较稳定,小的批量梯度方向存在一定的噪声,有噪声的梯度反而可以帮助训练。

动量:

如果一个球从高处滚下来,由于惯性它会继续往前走,如果动量足够大,甚至可以翻越小坡继续走。这就是动量。简单些理解,在高处下落的球在滑落到局部最低的坡之后会继续往高处越,假如当前的高处有一个小坡,球还是可以越过这个小坡到达下一个最低点。

相关推荐
用户938515635076 小时前
从 Prompt 到 Harness:AI 工程化的三年跃迁与实战解码
javascript·人工智能
甲维斯6 小时前
Agnes免费生图批图API+一键生图软件!
人工智能
April6667 小时前
Prompt-only 已死,Harness 才是 2026 的分水岭
人工智能
没落英雄7 小时前
从零开始搭建一个 AI Agent —— LangChain + TypeScript 实战手记
前端·人工智能·架构
web_Leon7 小时前
为什么越来越多的大厂抛弃MCP,转向CLI?
人工智能·ai编程
用户3615567288187 小时前
给VSCode写个扩展,选中代码就问AI,SSE坑不少
人工智能
武子康8 小时前
调查研究-203 SpaceX IPO 总览:先别急着讲故事,先把发行事实和信息边界立住
人工智能·openai·agent
IT_陈寒8 小时前
Redis内存飙升的锅,原来是我没搞懂这个过期策略
前端·人工智能·后端
东坡肘子9 小时前
SPI 加入 Apple,Swift 迈向自举 -- 肘子的 Swift 周报 #142
人工智能·swiftui·swift