requires_grad的三种写法以及区分

requires_grad的三种写法以及区分

第一种:

python 复制代码
x = torch.ones(2,2, requires_grad=True)

第二种:

python 复制代码
x = torch.ones(2,2)
x.requires_grad_=True

第三种:

python 复制代码
x = torch.ones(2,2)
x.requires_grad=True

这三种写法在功能上是等价的,它们都创建了一个形状为 (2 \times 2) 的张量 x,并设置了 requires_grad=True,这意味着 PyTorch 将会追踪对这个张量的所有操作以便未来可以计算梯度。不过,它们之间存在一些细微的差别,主要体现在代码的可读性和意图表达上。

第一种写法:x = torch.ones(2,2, requires_grad=True)

这种写法在创建张量时直接指定了 requires_grad=True。这种方式的优点是它清晰地表达了创建张量的意图,即这个张量是为了后续的梯度计算而创建的。这种写法在代码的可读性方面较好,因为它在张量创建时就明确了梯度追踪的需求。

第二种写法:x = torch.ones(2,2) 后跟 x.requires_grad_=True

这种写法首先创建了一个不需要梯度的张量 x,然后通过调用 .requires_grad_() 方法来设置 requires_grad 属性。这里使用的是 requires_grad_() 方法,它是一个就地操作(in-place operation),意味着它会直接修改调用它的张量,而不是创建一个新的张量。这种方式在某些情况下可以减少内存使用,因为它避免了创建额外的张量副本。

第三种写法:x = torch.ones(2,2) 后跟 x.requires_grad=True

这种写法与第二种写法类似,也是先创建一个不需要梯度的张量 x,然后设置 requires_grad=True。不过,这种方式不是就地操作,它会创建一个新的张量,并且这个新张量的 requires_grad 属性被设置为 True。这种方式在内存使用上可能不如第二种写法高效,因为它涉及到创建一个新的张量。

总结

  • 第一种写法 在代码的可读性方面最好,因为它在创建张量时就明确了梯度追踪的需求。
  • 第二种写法 是最推荐的写法,因为它通过就地操作来设置 requires_grad,避免了创建额外的张量副本,从而更高效。
  • 第三种写法 虽然功能上等价,但由于它不是就地操作,可能会涉及到额外的内存开销,因此在性能敏感的场景下不推荐使用。

在实际开发中,推荐使用第二种写法,因为它在表达意图和性能上都有很好的表现。

相关推荐
RaymondZhao3410 小时前
【全面推导】策略梯度算法:公式、偏差方差与进化
人工智能·深度学习·算法·机器学习·chatgpt
zhangfeng113310 小时前
DBSCAN算法详解和参数优化,基于密度的空间聚类算法,特别擅长处理不规则形状的聚类和噪声数据
算法·机器学习·聚类
强盛小灵通专卖员15 小时前
DL00291-联邦学习以去中心化锂离子电池健康预测模型完整实现
人工智能·机器学习·深度强化学习·核心期刊·导师·小论文·大论文
计算机sci论文精选17 小时前
CVPR 2025 | 具身智能 | HOLODECK:一句话召唤3D世界,智能体的“元宇宙练功房”来了
人工智能·深度学习·机器学习·计算机视觉·机器人·cvpr·具身智能
Christo317 小时前
SIGKDD-2023《Complementary Classifier Induced Partial Label Learning》
人工智能·深度学习·机器学习
JXL186019 小时前
机器学习概念(面试题库)
人工智能·机器学习
星期天要睡觉19 小时前
机器学习深度学习 所需数据的清洗实战案例 (结构清晰、万字解析、完整代码)包括机器学习方法预测缺失值的实践
人工智能·深度学习·机器学习·数据挖掘
点云SLAM19 小时前
Eigen中Dense 模块简要介绍和实战应用示例(最小二乘拟合直线、协方差矩阵计算和稀疏求解等)
线性代数·算法·机器学习·矩阵·机器人/slam·密集矩阵与向量·eigen库
岁月静好202519 小时前
BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain
人工智能·机器学习
Godspeed Zhao20 小时前
自动驾驶中的传感器技术34——Lidar(9)
人工智能·机器学习·自动驾驶