【机器学习】梯度下降

人总该做点什么2025-01-02 20:55

文章目录

- [1. 梯度下降概念](#1. 梯度下降概念)
- [2. 梯度下降的技巧](#2. 梯度下降的技巧)
- - [2.1 动态设置学习率](#2.1 动态设置学习率)
  - [2.2 Adagrad调整梯度](#2.2 Adagrad调整梯度)
  - [2.3 随机梯度下降（SGD）](#2.3 随机梯度下降（SGD）)
  - [2.4 特征缩放](#2.4 特征缩放)
- [3. 梯度下降理论基础](#3. 梯度下降理论基础)

1. 梯度下降概念

梯度：Loss 对参数在某一点的偏微分，函数沿梯度的方向具有最大的变化率
梯度下降：从某点出发，计算该点梯度，以一定的学习率沿着该梯度的反方向移动，直到梯度接近 0
公式： w t + 1 = w t − η d L d w w_{t+1} = w_t - \eta \frac{dL}{dw} wt+1=wt−ηdwdL

2. 梯度下降的技巧

2.1 动态设置学习率

原理：离终端越远，学习率越大；离终点越近，学习率越小。
公式： η t = η t \eta_t = \frac{\eta}{\sqrt{t}} ηt=t η
其中，t 是迭代次数。

2.2 Adagrad调整梯度

原理：
- 梯度大的时候，调正的步伐不一定要大，要综合考虑到二阶导数的影响。
- 通过参数的历史信息来调整学习率。
使用 Adagrad 方法更新参数的公式：
- η t σ t = η ∑ i = 1 t ( g i ) 2 \frac{\eta^t}{\sigma^t} = \frac{\eta}{\sqrt{\sum_{i=1}^{t} (g^i)^2}} σtηt=∑i=1t(gi)2 η
- w t + 1 = w t − η t σ t g t w^{t+1} = w^t - \frac{\eta^t}{\sigma^t} g^t wt+1=wt−σtηtgt
其中： σ t \sigma^t σt 是梯度平方的累加和（即历史梯度的平方和的平方根）。
总结：化简后，分子是一阶导数，分母其实是反应二阶导数的影响

2.3 随机梯度下降（SGD）

概念：不考虑所有样本，每次随机选取某个或某些样本点来做梯度下降更新参数。
作用：
- 训练更迅速，结果也不会太差。
- 可能受到某些样本的影响，导致不精确。

2.4 特征缩放

概念：将不同的输入特征统一缩放到相同的范围或分布。

特征归一化

公式： x ′ = x − min ⁡ ( x ) max ⁡ ( x ) − min ⁡ ( x ) x' = \frac{x - \min(x)}{\max(x) - \min(x)} x′=max(x)−min(x)x−min(x)
将数据统一到特定的范围，避免某些极端数据的影响。

特征标准化

公式： x ′ = x − μ σ x' = \frac{x - \mu}{\sigma} x′=σx−μ

其中：
- μ \mu μ 是特征的均值。
- σ \sigma σ 是特征的标准差。
效果：
- 数据更符合正态分布，处理后的特征均值为 0，标准差为 1。
- 减少特征间方差的差异，帮助加速收敛。

特征缩放的优点

未处理之前：
- Loss 是一个椭圆，每次更新沿着等高线（梯度）方向走，不是往圆心（最低点）走。
- 如果不使用 Adagrad，可能很难得到好的结果。
处理之后：
- Loss 是一个圆，每次更新都往圆心（最低点）走，容易训练。
- 有助于模型训练和加快收敛速度。

3. 梯度下降理论基础

泰勒级数近似

理论：
- 移动方向与梯度（偏导）方向相反时，内积最小。
- 发现附近以 $\\theta$ 半径圈的最小值，移动到那里。

使用前提

Loss function 必须是无限可微的。
附近圈小，可以忽略高次项，意味着学习率要足够小。

上一篇：教师管理系统

下一篇：Redis（一）基本特点和常用全局命令

热门推荐

01全球最强模型Grok4，国内已可免费使用！（附教程）02Cursor Claude 模型无法使用的解决方法 03KGG转MP3工具|非KGM文件|解密音频 04【2025.7.18】更新vscode后所有.vue文件template标签后报红的临时解决办法，Vue - Official 插件3.0.2导致 05【无标题】06集群聊天服务器---MySQL数据库的建立 07突破限制：使用 Claude Code Proxy 让 Claude Code 自由连接任意模型 08绿色建筑新态势：楼宇自控助力能效提升，推动成本优化新路径 09使用Ruby接入实时行情API教程 10Claude Code 最新版已经支持 Windows 安装使用！