IT数学基础番外1--手算梯度下降(TODO)

1. 最简模型:只有 1 个神经元

输入:x输出:ypred​真实值:ytrue​

公式:ypred​=w⋅x+b

要学的东西:

  • w = 权重(weight)
  • b = 偏置(bias)

目标: 让预测值和真实值尽量一样,也就是损失最小 。我们用最简单的损失:均方误差Loss=21​(ypred​−ytrue​)2


2. 给定一组数据

我们就用一组数据算:

  • x=1
  • ytrue=2

随便给个初始值:

  • w=0.5
  • b=0.5

3. 第一步:前向传播(算预测)

ypred​=0.5⋅1+0.5=1.0

真实值是 2,差得远。现在要用梯度下降改 w 和 b


4. 关键:求梯度(导数)

梯度下降的核心:对 Loss 求 w 和 b 的偏导,知道往哪改。

推导一下(很简单):∂w∂Loss​=(ypred​−ytrue​)⋅x∂b∂Loss​=ypred​−ytrue​

代入数值:ypred​−ytrue​=1−2=−1

∂w∂Loss​=−1⋅1=−1∂b∂Loss​=−1


5. 梯度下降更新公式

wnew​=wold​−η⋅∂w∂Loss​bnew​=bold​−η⋅∂b∂Loss​

η 是学习率,我们取 0.5。


6. 开始更新

wnew​=0.5−0.5(−1)=0.5+0.5=1.0bnew​=0.5−0.5(−1)=0.5+0.5=1.0


7. 再看预测

ypred​=1.0⋅1+1.0=2.0

直接等于真实值!一次就完美收敛。


8. 放到深度学习里,本质一模一样

深度学习只是:

  • 不是 1 个神经元,是几百万个
  • 不是 1 层,是几十层、上百层
  • 不是线性,加了激活函数
  • 不是 1 组数据,是几万、几百万组数据

梯度下降干的事完全没变:

不停地对 所有 w、b 求导然后一点点更新让 Loss 越来越小


超级总结(你彻底懂了)

  • 普通方程梯度下降:求 x
  • 深度学习梯度下降:求 所有 w 和 b
  • 本质:都是求参数,让损失最小

你现在已经懂了深度学习最核心的原理

相关推荐
左左右右左右摇晃17 小时前
HashMap 扩容机制
笔记
2301_7811435618 小时前
C语言学习笔记
笔记·学习
蒸蒸yyyyzwd19 小时前
高并发40问学习笔记
笔记·学习
Amazing_Cacao1 天前
褪去故事滤镜:重建精品可可的“结构语言”
笔记·学习
日更嵌入式的打工仔1 天前
二值信号量 vs 互斥量
笔记
Try,多训练1 天前
论文排版之添加图片、表格、公式的题注
经验分享·笔记
71-31 天前
Android studio中真机操作
android·笔记·学习·其他·android studio
程序员夏末1 天前
【LeetCode | 第六篇】算法笔记
笔记·算法·leetcode
A923A1 天前
【Vue3大事件 | 项目笔记】第二天
前端·vue.js·笔记·前端框架·前端项目
额1291 天前
Docker搭建zabbix
笔记