2.2.3机器学习—— 判定梯度下降是否收敛 + α学习率的选择

2.2.3 判定梯度下降是否收敛 + α学习率的选择

2.1、 判定梯度下降是否收敛

有两种方法,如下图:

  • 方法一:
    • 如图,随着迭代次数的增加,J(W,b)损失函数不断下降
    • 当 iterations = 300 之后,下降的就不太明显了 / 基本是一条直线了。 这时我们就说,==> "梯度下降已经收敛了"
  • 方法二:
    • 设置一个阈值 ε,这里我们让ε = 0.001 (自己设置的,但有的时候也掌握不好这个值是多少)。当J(w,b)下降值 < ε 时,我们就认为他已经收敛了
  • 最后:还是推荐方法一

2.2 如何设置学习率 α

1、常见的情况:

  • 情况一:说明 代码出现bug / α学习率选择太大了
  • 情况二:学习率α太大了
  • 情况三:这是一个正常的情况,但是当 迭代次数过多 也可能说明α学习率选择较小
  • 情况四:学习率太大了/代码的问题,你把每次更新w 写成w = w +... 应该是减法

2、选择 α 学习率的方法:

  • 首先选择从 0.0001 0.01 0.1 1 10 依次去尝试,当发现学习率α的值过大时(J(W,b)损失函数发生上弹)。
  • 再进行从最后一次正常的α值(出现损失函数J(w,b)上弹之前的值),依次迭代乘3去尝试
  • 最后选择一个比较好的值

**第一步:**首先选择从 0.0001 0.01 0.1 1 10 依次去尝试,当发现学习率α的值过大时(J(W,b)损失函数发生上弹)。

第二步:再进行从最后一次正常的α值(出现损失函数J(w,b)上弹之前的值),依次迭代乘3去尝试。 然后可以以此类推。最后收敛后,选择最合适的α值。

相关推荐
IT·小灰灰10 小时前
Hermes Agent + DMXAPI:一行命令部署,500+模型自由切换的完整配置指南
人工智能·gpt
星光技术人10 小时前
投机采样 Speculative Decoding 核心笔记
人工智能·笔记·深度学习·计算机视觉·语言模型·自动驾驶
@不误正业10 小时前
第01篇-AI-Agent到底是什么
人工智能·chatgpt
zzzzzz31010 小时前
CloakBrowser 深度解析:C++ 源码级隐身 Chromium 如何让 30+ 反 Bot 检测全部失效
人工智能
刘一说10 小时前
AI科技热点日报 | 2026年5月10日
大数据·人工智能·科技
qq_2837200511 小时前
RecursiveCharacterTextSplitter 核心参数深度指南:chunk_size 与 chunk_overlap 原理、实战、调优全解
人工智能·机器学习
网络工程小王11 小时前
【LangGraph 子图(Subgraph)详解】学习笔记
java·服务器·数据库·人工智能·langchain
a7520662811 小时前
OpenClaw 连接阿里云百炼完整图文实操教程
人工智能·阿里云·云计算·ai办公·openclaw·小龙虾·小龙虾一键部署
桂花饼11 小时前
AI 绘图新进展:GPTimage2 系列(含 4K 超清版)全量上线及直连 API 体验指南
人工智能·sora2·doubao-seedream·gpt-5.4·gemini3.1·qwen3.6-plus·gpt-image-2
码途漫谈11 小时前
Easy-Vibe高级开发篇阅读笔记(二十)——多平台开发之个人网页与博客开发
人工智能·笔记·ai·开源·ai编程