理解什么是叶子张量和非叶子张量?

在 PyTorch 中,叶子张量(Leaf Tensor)和非叶子张量(Non-Leaf Tensor)是计算图中的两个重要概念:

叶子张量(Leaf Tensor)

叶子张量是计算图中的起始点,它们通常是用户直接创建的张量,并且没有其他张量作为它们的输入。换句话说,叶子张量是那些不需要通过任何计算就能获得的张量。在神经网络中,叶子张量通常对应于模型的输入数据和模型的参数(权重和偏置)。

特征包括:

  • 是计算图的起点。
  • 通常对应于模型的参数或外部输入数据。
  • 可以设置 requires_grad=True 来追踪梯度,以便在训练过程中更新这些参数。

非叶子张量(Non-Leaf Tensor)

非叶子张量是计算图中通过某些操作从其他张量派生出来的张量。它们是计算图的中间节点,其值依赖于一个或多个其他张量的值。当你对叶子张量或其他非叶子张量执行操作(如加法、乘法等)时,就会创建非叶子张量。

特征包括:

  • 是通过计算图中的操作生成的。
  • 依赖于其他张量的值。
  • 默认情况下,它们的 .grad 属性在反向传播时不会被填充,除非你显式调用 retain_grad() 方法。

示例

python 复制代码
import torch

# 创建叶子张量 x,它是一个直接由用户创建的张量
x = torch.randn(2, 2, requires_grad=True)

# 创建非叶子张量 y,它是通过操作 x 得到的
y = x * 2

# 创建另一个非叶子张量 z,它是通过操作 y 得到的
z = y + 3

在这个示例中:

  • x 是叶子张量,因为它是直接创建的,并且没有依赖于其他张量。
  • yz 是非叶子张量,因为它们是通过操作 xy 得到的。

梯度计算

在反向传播时,PyTorch 会自动计算叶子张量的梯度,并将这些梯度存储在叶子张量的 .grad 属性中。对于非叶子张量,你需要显式调用 retain_grad() 方法,才能在反向传播时计算和存储它们的梯度。

python 复制代码
# 反向传播计算梯度
z.backward()

# 打印 x, y, z 的梯度
print("Gradient of x:", x.grad)  # 可以访问,因为 x 是叶子张量
print("Gradient of y:", y.grad)  # 会报警告,因为 y 是非叶子张量,且没有调用 retain_grad()
print("Gradient of z:", z.grad)  # 会报警告,因为 z 是非叶子张量,且没有调用 retain_grad()

为了能够访问 yz 的梯度,你需要在创建它们之后调用 retain_grad() 方法:

python 复制代码
y.retain_grad()
z.retain_grad()

# 反向传播计算梯度
z.backward()

# 打印 x, y, z 的梯度
print("Gradient of x:", x.grad)  # 可以访问
print("Gradient of y:", y.grad)  # 现在可以访问
print("Gradient of z:", z.grad)  # 现在可以访问

贴个网图:

相关推荐
vx_biyesheji00019 小时前
Python 全国城市租房洞察系统 Django框架 Requests爬虫 可视化 房子 房源 大数据 大模型 计算机毕业设计源码(建议收藏)✅
爬虫·python·机器学习·django·flask·课程设计·旅游
湘美书院--湘美谈教育9 小时前
湘美谈教育湘美书院网文研究:人工智能与微型小说选集
人工智能·深度学习·神经网络·机器学习·ai写作
zh路西法11 小时前
【宇树机器人强化学习】(七):复杂地形的生成与训练
python·深度学习·机器学习·机器人
OpenBayes贝式计算14 小时前
教程上新丨基于 GPU 部署 OpenClaw,轻松接入飞书/Discord 等社交软件
人工智能·深度学习·机器学习
Master_oid14 小时前
机器学习35:元学习的应用
人工智能·学习·机器学习
Echo_NGC223714 小时前
【卷积神经网络 CNN】一文讲透卷积神经网络CNN的核心概念与演进历程
人工智能·深度学习·神经网络·目标检测·机器学习·自然语言处理·cnn
郑同学zxc14 小时前
机器学习19-tensorflow4.2
人工智能·机器学习
LSssT.16 小时前
【02】线性回归:机器学习的入门第一课
人工智能·机器学习·线性回归
vx_biyesheji000116 小时前
计算机毕业设计:Python多源新闻数据智能舆情挖掘平台 Flask框架 爬虫 SnowNLP ARIMA 可视化 数据分析 大数据(建议收藏)✅
爬虫·python·机器学习·数据分析·django·flask·课程设计
忧郁的橙子.17 小时前
08-QLora微调&GGUF模型转换、Qwen打包部署 ollama 运行
人工智能·深度学习·机器学习·qlora·打包部署 ollama