autograd是pytorch构建神经网络的核心。
在 PyTorch 中,结合以下代码例子,当你对一个张量 x
设置 requires_grad=True
时,你实际上是告诉 PyTorch 需要跟踪所有对这个张量的操作以便未来可以计算梯度。当你调用 out.backward()
时,PyTorch 会自动计算关于 out
的梯度,并逆向传播回 x
。
在以下代码中:
python
x = torch.ones(2,2)
print(x)
x.requires_grad=True
print(x)
y = x + 2
z = y*y*3
out = z.mean()
print(out)
out.backward()
print(x.grad)
print(y.grad) # 这一行会报错,因为 y 不需要梯度,y为非叶子张量
y
是由 x
通过一个简单的加法操作得到的。由于 y
本身并没有设置 requires_grad=True
,PyTorch 没有跟踪 y
的操作历史,因此无法计算 y
关于 out
的梯度。
如果你想要计算 y
的梯度,你需要在创建 y
之前也设置 requires_grad=True
。但是,通常情况下,我们不需要对中间变量求梯度,我们只需要对最终输出的梯度感兴趣,然后通过反向传播计算出所有需要的梯度。
如果你确实需要对 y
求梯度,可以这样做:
python
x = torch.ones(2,2, requires_grad=True)
y = x + 2
z = y*y*3
out = z.mean()
out.backward()
print(x.grad) # 计算 x 的梯度
print(y.grad) # 现在可以计算 y 的梯度了
在这个修改后的代码中,x
和 y
都设置了 requires_grad=True
,因此 PyTorch 会跟踪它们所有的操作,你可以计算 y
关于 out
的梯度。但是请注意,通常情况下,我们只需要计算最终输出(在这个例子中是 out
)关于输入变量(在这个例子中是 x
)的梯度。