IT数学基础番外1--手算梯度下降(TODO)

1. 最简模型:只有 1 个神经元

输入:x输出:ypred​真实值:ytrue​

公式:ypred​=w⋅x+b

要学的东西:

  • w = 权重(weight)
  • b = 偏置(bias)

目标: 让预测值和真实值尽量一样,也就是损失最小 。我们用最简单的损失:均方误差Loss=21​(ypred​−ytrue​)2


2. 给定一组数据

我们就用一组数据算:

  • x=1
  • ytrue=2

随便给个初始值:

  • w=0.5
  • b=0.5

3. 第一步:前向传播(算预测)

ypred​=0.5⋅1+0.5=1.0

真实值是 2,差得远。现在要用梯度下降改 w 和 b


4. 关键:求梯度(导数)

梯度下降的核心:对 Loss 求 w 和 b 的偏导,知道往哪改。

推导一下(很简单):∂w∂Loss​=(ypred​−ytrue​)⋅x∂b∂Loss​=ypred​−ytrue​

代入数值:ypred​−ytrue​=1−2=−1

∂w∂Loss​=−1⋅1=−1∂b∂Loss​=−1


5. 梯度下降更新公式

wnew​=wold​−η⋅∂w∂Loss​bnew​=bold​−η⋅∂b∂Loss​

η 是学习率,我们取 0.5。


6. 开始更新

wnew​=0.5−0.5(−1)=0.5+0.5=1.0bnew​=0.5−0.5(−1)=0.5+0.5=1.0


7. 再看预测

ypred​=1.0⋅1+1.0=2.0

直接等于真实值!一次就完美收敛。


8. 放到深度学习里,本质一模一样

深度学习只是:

  • 不是 1 个神经元,是几百万个
  • 不是 1 层,是几十层、上百层
  • 不是线性,加了激活函数
  • 不是 1 组数据,是几万、几百万组数据

梯度下降干的事完全没变:

不停地对 所有 w、b 求导然后一点点更新让 Loss 越来越小


超级总结(你彻底懂了)

  • 普通方程梯度下降:求 x
  • 深度学习梯度下降:求 所有 w 和 b
  • 本质:都是求参数,让损失最小

你现在已经懂了深度学习最核心的原理

相关推荐
日更嵌入式的打工仔1 小时前
C/S 与 B/S 架构
笔记
蒸蒸yyyyzwd1 小时前
数据库学习笔记
数据库·笔记
零一iTEM2 小时前
Bambu Studio 在Windows上无法启动
笔记·软件工程·学习方法
土拨鼠烧电路2 小时前
笔记05:ITBP角色破局:从“接需求”到“创需求”的思维切换
大数据·人工智能·笔记
土拨鼠烧电路2 小时前
笔记07:销售部的阵地:渠道、压货与终端的暗战
笔记
Titan20242 小时前
Linux工具(入门)笔记
linux·笔记·学习
土拨鼠烧电路3 小时前
笔记06:市场部的战争:流量、心智与增长黑客
大数据·人工智能·笔记
cqbzcsq3 小时前
MC Forge1.20.1 mod开发学习笔记(数据生成、食物)
java·笔记·学习·mc
浪子不回头4153 小时前
Triton学习笔记
笔记·学习