202_深度学习的动力源泉:矩阵微积分与自动求导 (Autograd)

在深度学习中,我们不仅仅是对单个变量求导,而是对整个向量或矩阵求导。理解梯度(Gradient)如何在高维空间中流动,是掌握反向传播算法的关键。

1. 导数的基本概念:从标量到向量

笔记中回顾了导数的本质:衡量输入发生微小变化时,输出变化的速率。

  • 标量导数:y = f(x)的导数 f'(x)。
  • 亚微分 (Subgradient):对于不可导的点(如 ReLU 在 x=0 处),引入亚微分的概念,确保优化过程在这些点依然可行。

2. 向量微积分:梯度 (Gradient)

当函数 y的输入是一个向量

时,导数就变成了梯度

  • 几何意义 :梯度指向函数增长最快的方向。在训练中,我们沿着梯度的反方向走,这就是"梯度下降"。

3. 自动求导实战:PyTorch 的 backward()

PyTorch 强大的核心原因之一就是其自动求导系统。它会根据前向传播构建计算图,并自动推导出复杂的链式法则。

文件展示了如何对函数

进行求导:

Python

复制代码
import torch

# 1. 创建变量并声明需要计算梯度
x = torch.arange(4.0)
x.requires_grad_(True) # 默认是 False

# 2. 定义函数 y = 2 * (x的平方和)
y = 2 * torch.dot(x, x)

# 3. 反向传播
y.backward()

# 4. 查看梯度结果
# y = 2 * (x1^2 + x2^2 + ...) -> dy/dx = 4 * x
print(x.grad) 
print(x.grad == 4 * x) # 验证结果是否为 [0, 4, 8, 12]

4. 计算图与链式法则 (Chain Rule)

神经网络是由许多层堆叠而成的复合函数

  • 链式法则
  • 计算图 :PyTorch 在后台将操作记录为有向无环图(DAG),.backward() 实际上是在这个图上从后往前进行拓扑遍历。

5. 进阶:分离计算与非标量求导

笔记中提到了两个非常实用的技巧:

① 分离计算 (detach)

有时我们希望将某些计算移出计算图,使其不参与梯度更新。

Python

复制代码
# z 对 x 的梯度不会通过 y 传递
y = x * x
u = y.detach() 
z = u * x
z.sum().backward()
print(x.grad == u) # 此时梯度只计入 u,不计入 y

② 非标量求导

PyTorch 通常只对标量输出求导。如果 y 是一个向量,调用 y.backward() 会报错。

  • 解决方法 :通常对 y.sum().backward() 进行操作,这相当于计算梯度向量。

6. 总结:矩阵计算的"三板斧"

  1. 定义变量 :使用 requires_grad_(True)
  2. 构建逻辑:编写前向计算公式。
  3. 触发求导 :调用 .backward(),然后从 .grad 属性中提取结果。
相关推荐
许彰午9 小时前
14_Java泛型完全指南
java·windows·python
2601_949499949 小时前
8 大工业光模块供应商选型:芯瑞科技 400G OSFP 助力 AI 算力集群升级
人工智能·科技
温柔只给梦中人9 小时前
NLP学习:注意力机制
人工智能·学习·自然语言处理
weixin_4296302610 小时前
3.49 HVLF:一种跨场景的整体视觉定位框架
深度学习·机器学习·计算机视觉
广州灵眸科技有限公司10 小时前
瑞芯微RV1126B开发板(EASY-EAI-PI2) Easy-Eai编译环境准备与更新
服务器·前端·人工智能·python·深度学习
深度学习lover10 小时前
<数据集>yolo樱桃识别<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·樱桃识别
深圳市机智人激光雷达10 小时前
技术筑牢安全冗余:激光雷达在自动驾驶高阶感知中的底层价值与范式演进
人工智能·安全·机器学习·3d·机器人·自动驾驶·无人机
江澎涌10 小时前
拆解与 AI 的一次对话
人工智能·算法·程序员
lqqjuly10 小时前
神经架构搜索深度解析(Neural Architecture Search, NAS)
人工智能·知识图谱
TechWayfarer10 小时前
IP风险等级评估接入实战:金融信贷如何用IP画像辅助风控审核
python·tcp/ip·安全·金融