PyTorch 从tensor.grad 看 backward(权重参数) 和 gradient accumulated

1. 新建一个自变量 tensor x

python 复制代码
import torch

x = torch.ones(1, requires_grad=True)
print(x)

1. 输出:

python 复制代码
tensor([1.], requires_grad=True)

2. 写一个 forward

python 复制代码
import torch

x = torch.ones(1, requires_grad=True)
y = x**2
z = x**3

3. y, z 都 backward

python 复制代码
import torch

x = torch.ones(1, requires_grad=True)
y = x**2
z = x**3

y.backward()
z.backward()

print(x.grad)

3.输出

python 复制代码
tensor([5.])

4. 单独 y backward

python 复制代码
import torch

x = torch.ones(1, requires_grad=True)
y = x**2
z = x**3

y.backward()

print(x.grad)

4. 输出

python 复制代码
tensor([2.])

5. 单独 z backward

python 复制代码
import torch

x = torch.ones(1, requires_grad=True)
y = x**2
z = x**3

z.backward()

print(x.grad)

5. 输出

python 复制代码
tensor([3.])

6. tensor.grad.zero_()

python 复制代码
import torch

x = torch.ones(1, requires_grad=True)
y = x**2
y.backward()
print(x.grad)

x.grad.zero_()
z = x**3
z.backward()
print(x.grad)

输出:

python 复制代码
tensor([2.])
tensor([3.])

向量形式

注意由于 x 此时不是标量,所以 执行 y.backward()的时候必须给一个参数。

参数的含义是权重。

gradient=torch.ones(y.size()) 中的 gradient 参数指定了每个 y 元素对于 x的梯度的权重。在这里,gradient 设置为全1的张量,表示每个 y 元素对于损失函数的梯度权重都是1。

这意味着所有的梯度将被等权重地传播回输入 x。如果你想要为不同的元素分配不同的权重,你可以修改 gradient 参数以实现不同的梯度计算策略。

python 复制代码
import torch

x = torch.tensor([[-1.5], [2.7]], requires_grad=True)
print(x)

y = torch.empty([3,1])
y[0] = x[0]**2
y[1] = x[1]**3
y[2] = x[1]**4
y.backward(gradient=torch.ones(y.size()))
print(x.grad)


dy0 = 2*x[0]
dy1 = 3*x[1]**2
dy2 = 4*x[1]**3

dy_dx0 = dy0
dy_dx1 = dy1+dy2

print(dy_dx0)
print(dy_dx1)

输出

python 复制代码
tensor([[-1.5000],
        [ 2.7000]], requires_grad=True)

tensor([[ -3.0000],
        [100.6020]])
        
tensor([-3.], grad_fn=<MulBackward0>)
tensor([100.6020], grad_fn=<AddBackward0>)

权重不一样

python 复制代码
import torch

x = torch.tensor([[-1.5], [2.7]], requires_grad=True)
print(x)

y = torch.empty([3,1])
y[0] = x[0]**2
y[1] = x[1]**3
y[2] = x[1]**4
y.backward(gradient=torch.tensor([[0.5],[-2.],[1.5]]))
print(x.grad)


dy0 = 2*x[0]
dy1 = 3*x[1]**2
dy2 = 4*x[1]**3

dy_dx0 = 0.5*dy0
dy_dx1 = -2*dy1+1.5*dy2

print(dy_dx0)
print(dy_dx1)

输出

python 复制代码
tensor([[-1.5000],
        [ 2.7000]], requires_grad=True)
tensor([[-1.5000],
        [74.3580]])
tensor([-1.5000], grad_fn=<MulBackward0>)
tensor([74.3580], grad_fn=<AddBackward0>)
相关推荐
deephub5 分钟前
多智能体系统的三种编排模式:Supervisor、Pipeline 与 Swarm
人工智能·python·大语言模型·agent
Lw中6 分钟前
提示词效果不稳定?
人工智能·rag·大模型应用基础
globaldomain10 分钟前
安全研究发现OpenClaw AI代理“极易受劫持”
人工智能·安全·openclaw·龙虾
墨102412 分钟前
与 AI 并肩成长:从个人知识库到每日新闻系统的实践记录
人工智能·ai·ai编程·openclaw
m0_7381207212 分钟前
渗透测试——pyexpvm靶机详细提权过程(MSF框架,Hydra数据库爆破,SUDO提权)
服务器·网络·数据库·python·sql·web安全
翱翔的苍鹰13 分钟前
LangChain是一个主流的大语言模型(LLM)应用开发框架,核心功能是连接大模型与外部资源/工具。
网络·人工智能·python·深度学习·语言模型
坚持学习前端日记13 分钟前
AI 产品开发经验
前端·javascript·人工智能·visual studio
小程故事多_8014 分钟前
阿里大模型二面深度解析,赋予LLM规划能力的主流方法与实践选型
人工智能·aigc·ai编程
念安jy15 分钟前
吴恩达机器学习作业(week1-4)
人工智能·机器学习
rgb2gray16 分钟前
论文详解 | HDAM:破解 MAUP 的城市出行需求分析新方法,实现关键驱动精准识别
人工智能·python·llm·大语言模型·需求分析·多模态·maup