【笔记】记录对python中.grad()的一些理解

这几天再看神经网络,有点不明白.grad()、.detach()、.backward()等等等等这些关于梯度计算的东西,今天好像理解了一点,来做一个自己理解的总结。

首先来看一段非常简单的代码:

python 复制代码
import torch

X = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = X * 2
z = y.sum()

z.backward()

print(X.grad)

这里我们定义了一个张量X,定义时将它的requires_grad设为了True,表示后面我们将会计算X的梯度。

然后我们对X进行了一系列运算,首先将它的所有元素乘以2,然后将所有元素相加。

最后实行反向传播计算并将梯度存储在内部,输入梯度。

要注意的是是对z进行反向传播,但梯度是记录在X中的。

最近看到了这样的一段代码:

python 复制代码
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) #定义一个随机梯度下降类
for epoch in range(num_epochs):
    # 前向传播
    outputs = model(inputs)
    loss = criterion(outputs, targets)

    # 反向传播和优化
    optimizer.zero_grad()  # 清空之前的梯度
    loss.backward()        # 计算梯度
    optimizer.step()       # 更新权重

就很疑惑:为什么optimizer只要执行一个step就能准确根据梯度更新参数,而loss.backward()好像干了什么但又好像什么都没干,optimizer并没有传入loss作为参数,它是怎么知道要如何更新参数的呢?

现在才知道了,loss.backward()这步就是将梯度存储在先前的参数w、b中,执行完这一步后参数就会带上它的梯度,因此optimizer.step()就能通过w.grad、b.grad调用它的梯度。

另外requires_grad=True这个设置也可有在后面进行取消:

python 复制代码
import torch

X = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = X * 2

y.detach_()

z = y.sum()
z.backward()

print(X.grad)

这样在中间插入了y.detach_(),就相当于把y的requires_grad改回了False,并且y和X的关系被切断,所以无法输出X的grad。

但是:

python 复制代码
import torch

X = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = X * 2

z = y.sum()

y.detach_()

z.backward()

print(X.grad)

这样的话z在y更改设置之前就保留了y和X的关系,所以还是能够输出X的梯度。

相关推荐
m0_733565461 分钟前
如何指定PHP版本运行phpMyAdmin_多版本共存配置
jvm·数据库·python
周末也要写八哥1 分钟前
在C++中使用预定义宏
开发语言·c++·算法
Data_Journal10 分钟前
使用Python lxml轻松进行网络爬取
开发语言·php
love530love24 分钟前
ComfyUI MediaPipe 猴子补丁终极完善版:补全上下文管理与姿态检测兼容
人工智能·windows·python·comfyui·protobuf·mediapipe
xcLeigh25 分钟前
IoTDB JDBC 完整使用教程:连接、查询、批处理与字符集配置
开发语言·数据库·qt·iotdb·查询·批处理·连接
学会870上岸华师28 分钟前
C 语言程序设计——第一章课后编程题
c语言·开发语言·学习·算法
小小编程路29 分钟前
新手快速学 Python 极简速成指南
开发语言·c++·python
小马过河R36 分钟前
RAG检索优化策略:系统性四层框架解析
人工智能·python·算法·ai·llm·rag·问答
yzx9910131 小时前
脚本定制从入门到实践:打造你的专属浏览器助手
python
AI技术控1 小时前
论文解读:AE-TCN-SA——基于自编码器、TCN 与自注意力机制的锂电池内短路诊断方法
人工智能·python·深度学习·算法·机器学习·自然语言处理