深度学习权重计算三步法则

先把"游戏规则"全部定死(非常重要)

1️⃣ 模型

y = wx +b

2️⃣ 数据(只用 1 个点)

复制代码
x = 2 y_true = 4 

3️⃣ 初始参数

复制代码
w = 1 b = 0 

4️⃣ Loss(平方误差)

5️⃣ 学习率

复制代码
lr = 0.1 

二、前向传播(算预测)

1️⃣ 算预测值

复制代码
y_hat = w x + b = 1 * 2 + 0 = 2 

2️⃣ 算 loss

复制代码
L = 1/2 * (2 - 4)^2 = 1/2 * 4 = 2 

三、反向传播:算梯度(最关键)

我们现在问一个问题:

如果我把 w 稍微变大一点点,loss 是变大还是变小?


1️⃣ 写出 loss 关于 w 的公式


2️⃣ 对 w 求导(一步一步)


3️⃣ 代入当前数值

复制代码
(w x - y) = (1 * 2 - 4) = -2 
x = 2 

所以代入公式2:

复制代码
grad = -2 * 2 = -4 

🔥 解释这个「-4」是什么意思

  • 梯度是 负的

  • 意味着:

👉 增大 w,会让 loss 下降


四、SGD 更新(你问的核心)

更新公式

复制代码
w_new = w - lr * grad 

代入数值

复制代码
w_new = 1 - 0.1 * (-4) = 1 + 0.4 = 1.4 

五、更新之后,loss 真的变小了吗?(验证)

新预测

复制代码
y_hat = 1.4 * 2 = 2.8 

新 loss

复制代码
L = 1/2 * (2.8 - 4)^2 = 1/2 * 1.44 = 0.72 

2 → 0.72,loss 真的下降了


六、再走一步

第二步更新

当前参数

复制代码
w = 1.4 

算梯度

复制代码
(w x - y) = (1.4 * 2 - 4) = -1.2 
grad = (w x - y) *x = -1.2 * 2 = -2.4 

更新

复制代码
w_new = 1.4 - 0.1 * (-2.4) = 1.64 

loss

复制代码
L = 1/2 * (1.64 * 2 - 4)^2 = 0.13 

七、现在应该能"看见"梯度下降在干嘛了

  • 梯度的 符号:告诉你往哪边走

  • 梯度的 大小:告诉你走多远

  • 学习率:控制步子大小

八、权重更新三步走:

1. 计算损失 - 前向传播

loss = criterion(model(inputs), labels) # 计算预测值与真实值的差异

2. 计算梯度 - 反向传播

loss.backward() # 自动计算所有参数的梯度并存储

3. 更新权重 - 优化器步进

optimizer.step() # 根据梯度更新模型参数

相关推荐
苏映视官方账号9 小时前
精品案例丨方寸之间,“微” 毫毕现 —— 圆刀机高精度检测工艺优化实例
人工智能·数码相机·视觉检测·制造
Cloud_Shy6189 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第六章 Item 40 - 43)
android·开发语言·人工智能·笔记·python·学习方法
Sammyyyyy9 小时前
月之暗面 Kimi Code 0.4.0 发布,终端 AI 编码助手全面采用 TypeScript,实现毫秒级启动
前端·javascript·人工智能·ai·typescript·servbay
装不满的克莱因瓶9 小时前
掌握生成对抗网络(GAN)的优化目标与评估指标——从博弈函数到生成质量衡量体系
人工智能·python·深度学习·算法·机器学习
whyfail9 小时前
小米 MiMo Code 开源:能免费用 2.5 模型的 AI 编程 Agent
人工智能
慕木沐9 小时前
【Spring AI + Google ADK 】流式输出时 outputKey 状态缓存失败的问题
人工智能·spring·缓存
wuhanzhanhui9 小时前
智能工厂升级新风口,2026武汉智能工业自动化及机器人展览会引领未来
人工智能
云烟成雨TD9 小时前
Agent Scope Java 2.x 系列【4】模型层
java·人工智能·agent
dozenyaoyida9 小时前
AI与大模型新闻日报 | 2026-06-12
人工智能·ai·大模型·新闻
Blb1236549 小时前
技术解析-固体绝缘材料表面电阻率测试
人工智能·功能测试·制造·材料工程