深度学习-批量与动量【Datawhale X 李宏毅苹果书 AI夏令营】

实际工程中使用批量和动量可以对抗鞍点或局部最小值。

批量:

在计算梯度的时候不会用所有数据计算损失。类比我们考试复习时,一个单元一个单元的知识点输入,所有单元都输入就是一整个轮回。而这一个单元用深度学习的术语来说就是批量(batch)。遍历所有批量就是一个回合(epoch)。

使用全批量的数据来更新参数的方法叫做批量梯度下降法(BGD),在下降的梯度上引入随机噪声,叫做随机梯度下降法(SGD)。

相对而言,大的批量更新比较稳定,小的批量梯度方向存在一定的噪声,有噪声的梯度反而可以帮助训练。

动量:

如果一个球从高处滚下来,由于惯性它会继续往前走,如果动量足够大,甚至可以翻越小坡继续走。这就是动量。简单些理解,在高处下落的球在滑落到局部最低的坡之后会继续往高处越,假如当前的高处有一个小坡,球还是可以越过这个小坡到达下一个最低点。

相关推荐
AI服务老曹9 分钟前
成为一种国家战略范畴的新基建的智慧园区开源了
运维·人工智能·学习·开源·能源
果冻人工智能13 分钟前
利用“人工怀疑”,来大幅提高AI数学准确率
人工智能
果冻人工智能15 分钟前
10个几乎能替代一整个开发团队的AI工具,你信吗?
人工智能
CoderJia程序员甲1 小时前
NotebookLM:基于 Gemini 2.0 的个性化 AI 研究助手
人工智能·大模型·知识库·gemini·notebooklm
飞思实验室1 小时前
核心案例 | 湖南汽车工程职业大学无人机操控与编队技术实验室
人工智能·机器人·无人机·产学研
weixin_457885821 小时前
DeepSeek:穿透行业知识壁垒的搜索引擎攻防战
人工智能·搜索引擎·ai·deepseek·虎跃办公
索码理2 小时前
初探MCP:对Excel操作不熟练?不怕,MCP来帮你
人工智能·后端·mcp
GXL2 小时前
知识蒸馏概览:模型压缩与智能迁移的桥梁
人工智能
DeepLink2 小时前
🧠 AI论文精读 :《Attention is All You Need》
人工智能·算法