梯度反向传播过程是如何处理repeat函数的

举个例子

python 复制代码
import torch

# 假设有一个简单的计算图
x = torch.tensor(2.0, requires_grad=True)
c=x.repeat(2,1)
y = c ** 2


print(x,"\n",c,"\n",y)
torch.sum(y)

z = torch.sum(y)

# 计算梯度
grads = torch.autograd.grad(z, x)
# 打印梯度
print("Gradient of z w.r.t. x:", grads)

输出

python 复制代码
tensor(2., requires_grad=True) 
 tensor([[2.],
        [2.]], grad_fn=<RepeatBackward0>) 
 tensor([[4.],
        [4.]], grad_fn=<PowBackward0>)
Gradient of z w.r.t. x: (tensor(8.),)

在你的代码中,首先创建了一个张量 x,然后使用 repeat 函数将其在第0维(行)上重复2次,形成一个形状为 (2, 1) 的张量 c。然后,计算了 c 的平方,得到张量 y。最后,对 y 求和,得到标量张量 z。

因为 z 是一个标量,所以可以对它对 x 求梯度。现在让我们来分析一下为什么计算出的梯度是8:

首先,我们有 y = c ** 2,其中 c 是重复了两次的 x。所以 y 的值为 [4.0, 4.0]。然后,我们对 y 求和,得到 z = 8.0。

接下来,我们要计算 z 对 x 的梯度。由于 z 是标量,所以 torch.autograd.grad 函数的返回值是一个包含一个元素的元组,即 (grad_x,)。因此,grads 的值是一个包含一个张量的元组。在这种情况下,梯度的计算是通过链式法则完成的,即 dz/dx = dz/dy * dy/dc * dc/dx。在这里,dz/dy 是1,因为 z 是 y 的总和,dy/dc 是2,因为 y 中每个元素对 c 的导数都是2,dc/dx 是2,因为 c 是通过将 x 重复两次得到的,所以 x 对 c 的导数是2。因此, dz/dx = 1 * 2 * 2 = 4 * 2 = 8。

因此,计算出的梯度是8。

太神奇了,dc/dx的结果就是重复的次数!,那其实repeat函数的效果相对于放大了repeat对象的学习率,放大倍数就是repeat的次数,所以慎用repeat呀!

相关推荐
玩转单片机与嵌入式1 分钟前
学习嵌入式AI(TInyML),只需掌握这点python基础即可!
人工智能·python·学习
少年执笔4 分钟前
ollama搭建本地模型框架
python·ai
极光代码工作室7 分钟前
基于大数据的校园消费行为分析系统
大数据·hadoop·python·数据分析·spark
地理探险家14 分钟前
我整理了一份动物数据集合集,做深度学习的直接省掉80%时间(附使用建议)
人工智能·深度学习·数据集·图像·动物
硅谷秋水20 分钟前
语言智体的Harness工程:Harness层作为控制、智体和运行时
人工智能·深度学习·机器学习·语言模型
生物信息与育种38 分钟前
黄三文院士领衔植物星球计划(PLANeT)发表Cell
人工智能·深度学习·算法·面试·transformer
A__tao1 小时前
JSON 转 Java 实体类工具(支持嵌套与注释解析)
java·python·json
zhouwy1131 小时前
Python 基础语法笔记:从入门到进阶的系统学习
python
地理探险家1 小时前
做植物病害识别,数据我帮你整理好了(叶片数据合集+使用建议)
人工智能·深度学习·数据集·植物·病害
高洁011 小时前
工程科研中的AI应用:结构力学分析技巧
python·深度学习·机器学习·数据挖掘·知识图谱