pytorch中链式法则求解梯度

链式法则,就是复合函数求导的规则 ,也是 PyTorch 自动求导的数学本质

我用最直白、一步一步的方式讲清楚,看完你就懂反向传播到底在算什么。


一、什么是链式法则?

一句话:
对复合函数求导,等于把每一步的导数乘起来。

公式:


二、最简单例子:一步链式

非常简单。


三、经典神经网络式例子(真正理解反向传播)

我们用一个真实的"计算图"结构:

这就是链式法则在神经网络里的真实用法

反向传播本质就是:
从损失 L 出发,沿着计算图往回走,一路把局部导数乘起来。


四、再复杂一点:多层链式(真正像神经网络)

每一步都是局部导数相乘

这就是深度网络反向传播的全部数学原理


五、链式法则 + 计算图 = PyTorch 自动求导

PyTorch 做的事情非常简单:

  1. 前向传播:
    构建计算图,记录每一步操作
  2. 反向传播:
    从 loss 开始,沿着计算图反向遍历
    对每个算子,算出局部导数
    然后一路相乘 (链式法则)
    最终得到参数的梯度

所以:
自动求导 = 计算图 + 链式法则


六、一句话总结

链式法则就是:
复合函数求导 = 路径上所有局部偏导数相乘。

反向传播就是:
从损失往输入反向走,用链式法则把梯度一路乘回参数。

下面给你画清晰的计算图 + 梯度反向流动(链式法则),用文字+结构画出来,一眼看懂。


1. 我们的模型


2. 前向计算图(数据流向:左 → 右)

复制代码
        x (1.0)
           \
            \ *
             \
              y = x*w (2.0)  →  L = y² (4.0)
             /
            /
        w (2.0)

这就是计算图


3. 反向梯度流(链式法则:右 → 左)

梯度从损失 L 往回传,每一步都是乘上局部导数

复制代码
        x
         ↑
     dy/dw = x
         ↑
        y  ←─────────── L
     dy/dy=1        dL/dy=2y
                   (这里是 4)

完整链式路径:


4. 梯度流动画(最直观)

复制代码
正向:
x(1)  ──[×w]──>  y(2)  ──[²]──>  L(4)

反向(链式相乘):
L  ←──[dL/dy=2y=4]──  y  ←──[dy/dw=x=1]──  w

所以:
dL/dw = 4 × 1 = 4

5. 再画一个带偏置 b 的通用版(神经网络标准结构)

复制代码
正向:
x
 \
  \ * w
   \
    + → y → L
   /
b /

反向链式:
dL/dw = dL/dy * dy/dw = dL/dy * x
dL/db = dL/dy * dy/db = dL/dy * 1

一句话记住

反向传播 = 沿着计算图往回走,一路用链式法则把梯度乘起来。

相关推荐
我的xiaodoujiao9 分钟前
API 接口自动化测试详细图文教程学习系列16--项目实战演练3
python·学习·测试工具·pytest
科研前沿13 分钟前
2026 数字孪生前沿科技:全景迭代报告 —— 镜像视界生成式孪生(Generative DT)技术白皮书
大数据·人工智能·科技·算法·音视频·空间计算
ID_1800790547313 分钟前
Python 实现亚马逊商品详情 API 数据准确性校验(极简可用 + JSON 参考)
java·python·json
Leinwin33 分钟前
双城奔赴,智领未来:领驭科技亮相2026微软AI Tour上海·香港站
人工智能·科技·microsoft
时空系37 分钟前
第10篇:继承扩展——面向对象编程进阶 python中文编程
开发语言·python·ai编程
洋子37 分钟前
Yank Note 系列 13 - 让 AI Agent 进入笔记工作流
前端·人工智能
侠客工坊1 小时前
移动端 RPA 的架构重构:基于侠客工坊多模态视觉大模型的自动化调度系统压测复盘
人工智能·智能手机·重构·架构·rpa·数字员工·侠客工坊
胖墩会武术1 小时前
Obsidian 与 Obsidian Skills 小白入门
人工智能·ai·obsidian·obsidian skills
河北小博博1 小时前
李宏毅Harness Engineering课程逐字稿整理:有时候模型不是不够聪明,只是没有好的Harness
人工智能
Elastic 中国社区官方博客1 小时前
Elastic-caveman : 在不损失 Elastic 最佳效果的情况下,将 AI 响应 tokens 减少64%
大数据·运维·数据库·人工智能·elasticsearch·搜索引擎·全文检索