基于PyTorch的深度学习3——非标量反向传播

以下内容由大语言模型生成:

张量,边代表从输入到输出的操作。当我们对一个标量调用backward()函数时,PyTorch能够直接计算该标量关于参与运算的所有张量的梯度。这是因为导数的概念最开始是针对标量值定义的。

为什么需要传入gradient参数?

当你有一个非标量(即形状不为1的张量)并希望对其求导时,实际上你是在尝试计算这个张量关于某些变量的雅可比矩阵(Jacobian Matrix)。然而,PyTorch并不直接支持这种操作,因为它复杂化了自动微分的流程。为了简化这个问题,PyTorch要求在这种情况下提供一个额外的gradient参数,这个参数同样是一个张量,并且其形状必须与调用backward()的那个张量相同。这个gradient实际上扮演了一个"权重"的角色,用于将多维导数的问题转化为标量导数的问题。

如何理解这个过程?

考虑你的例子:假设你有一个损失向量loss=(y_1, y_2, ..., y_m),你想要根据它来更新一些模型参数。由于loss不是一个标量,你不能直接对它调用backward()。这时,你可以引入一个向量v=(v_1, v_2, ..., v_m),然后将lossv进行点乘得到一个新的标量loss*v^T(这里v^T表示v的转置,虽然在实际代码中我们不会这样写,这只是为了表达数学概念)。这个新生成的标量可以被用来调用backward()方法,从而触发梯度的计算。

具体来说,这样做实际上是计算了loss的雅可比矩阵与v的乘积。换句话说,原本你需要计算的是雅可比矩阵,但现在通过点乘转换后,你只需计算一个标量关于所需变量的梯度。这使得PyTorch的自动微分机制能够处理这种情况,而不需要直接支持张量对张量的求导。

1)定义叶子节点及计算节点。

python 复制代码
import torch

#定义叶节点张量x,形状为1x2
x=torch.tensor([[2.3]],dtype=torch.float,requires_grad=True)

#初始化Jacobian矩阵
J=torch.zeros(2,2)

#初始化目标张量,形状为1x2
y=torch.zeros(1,2)

#定义y与x之间的映射关系:
#y1=x1**2+3*x2,y2=x2**2+2*x1
y[0,0]=x[0,0]**2+3*x[0,1]
y[0,1]=x[0,1]**2+2*x[0,0]

2)手工计算y对x的梯度

y对x的梯度是一个雅可比矩阵,可以通过手动计算值

python 复制代码
#生成y1对x的梯度
y.backward(torch.Tensor([[1, 0]]),retain_graph=True)
##gradient的作用:传入的gradient张量扮演了一个权重的角色,它决定了每个元素在最终梯度计算中的重要
##本质上,这是将雅可比矩阵乘以这个gradient向量,从而将多维导数的问题简化为一维标量导数的问题。

J[0]=x.grad

#梯度是累加的,故需要对x的梯度清零
x.grad = torch.zeros_like(x.grad)

#生成y2对x的梯度
y.backward(torch.Tensor([[0, 1]]))

J[1]=x.grad
#显示jacobian矩阵的值
print(J)
相关推荐
极客BIM工作室几秒前
让AI自动“造房间”:SpatialGen是什么?
人工智能
serve the people1 分钟前
TensorFlow 2.0 手写数字分类教程
人工智能·分类·tensorflow
free-elcmacom1 分钟前
机器学习高阶教程<7>Transformer原理全景解读:从“序列困境”到“注意力革命”
人工智能·python·机器学习·transformer
才思喷涌的小书虫2 分钟前
DINO-X 视觉模板挑战赛火热报名中
人工智能·目标检测·计算机视觉·ai·数据标注·图像标注·模型定制
AI营销实验室3 分钟前
原圈科技AI CRM系统创新模式深度解析,助力工业B2B企业转型
大数据·人工智能·科技
wxl7812275 分钟前
开源AI记忆工具Cognee深度解析:技术优势、部署实践与实测验证
人工智能·congee 0.5版本·ai记忆·替代rag
不爱吃糖的程序媛5 分钟前
基于Ascend C开发的Vector算子模板库-ATVOSS 技术深度解读
人工智能·算法·机器学习
wheeldown7 分钟前
在CodeRider-Kilo AI助手协助下实现的第一个小游戏——飞机大战
人工智能·产品运营
baby_hua7 分钟前
20251011_Pytorch深度学习(快速预览)
人工智能·pytorch·深度学习
natide8 分钟前
词汇/表达差异-1-编辑距离-莱文斯坦距离-Levenshtein
人工智能·深度学习·自然语言处理·知识图谱