Pytorch的梯度控制

在之前的实验中遇到一些问题,因为之前计算资源有限,我就想着微调其中一部分参数做,于是我误打误撞使用了with torch.no_grad,可是发现梯度传递不了,于是写下此文来记录梯度控制的两个方法与区别。

在PyTorch中,控制梯度计算对于模型训练和微调至关重要。这里区分两个常用方法:

1. tensor.requires_grad = False

  • 目标: 单个张量(通常是模型参数 nn.Parameter)。
  • 行为:
    • "参数冻结" :这个张量本身不会计算梯度 (.gradNone)。
    • "参数不更新" :优化器不会更新这个张量。
    • "梯度可穿透" :如果它参与的运算的输入是 requires_grad=True 的,梯度仍然会通过这个运算传递给输入。它不阻碍梯度流向更早的可训练层。
  • 场景:
    • 微调:冻结预训练模型的某些层,只训练其他层。
    • 例子:pretrained_layer.weight.requires_grad = False

2. with torch.no_grad():

  • 目标: 一个代码块 (with 语句块内部)。

  • 行为:

    • "全局梯度关闭" (块内):块内所有新创建的张量默认 requires_grad=False
    • "不记录计算图" :块内的运算不被追踪,不构建反向传播所需的计算图。
    • "梯度截断" :梯度流到这个块的边界就会停止,无法通过块内的操作继续反向传播
  • 场景:

    • 模型评估/推理 (Inference/Evaluation):不需要梯度,节省内存和计算。
    • 执行不需要梯度的任何计算。
    • 例子:
    python 复制代码
     with torch.no_grad():
         outputs = model(inputs)
         # ...其他评估代码

核心区别速记:

特性 requires_grad=False with torch.no_grad():
谁不更新? 这个参数自己 (块内)没人更新
梯度能过吗? 能过! 不能过! (被截断)
影响范围? 单个张量 整个代码块

一句话总结:

  • 想让某个参数不更新但梯度能流过 ,用 requires_grad=False
  • 想让一段代码完全不计算梯度也不让梯度流过 ,用 with torch.no_grad()

搞清楚这两者的区别,能在PyTorch中更灵活地控制模型的训练过程!

相关推荐
元岳数字人小元6 分钟前
AI 数字人开发公司浅谈 虚拟数字人打造景区新服务
人工智能·人机交互·交互
哦哦~9219 分钟前
AI赋能生物医学:从临床数据到药物分子性质预测实战培
人工智能·生物医学·药物分子
GIS数据转换器12 分钟前
城市排水生命线安全运行监测平台深度解析
java·运维·人工智能·python·安全·数据挖掘·无人机
虫无涯15 分钟前
本地离线大模型实战:Ollama + Llama 3.1 8B 全流程部署(适配VSCode Continue代码助手)
人工智能
Rocky Ding*30 分钟前
Latent Consistency Models:一篇读懂扩散模型的少步生成核心基础知识
人工智能·深度学习·机器学习·ai作画·stable diffusion·aigc·ai-native
大山佬31 分钟前
AI 边缘部署:MCU 上的轻量级目标检测,从 YOLO 到 TFLite Micro 的全链路优化
人工智能
数睿数据无代码开发33 分钟前
深度解析smardaten数据大屏:六大核心功能重塑可视化开发
人工智能·信息可视化
陈猪的杰咪33 分钟前
GitHub Copilot 2026计费新规:AI Credits消耗解析与节省策略
人工智能·ai·架构·github·copilot
贤哥哥yyds34 分钟前
GBK转UTF\-8编码自动转换工具 使用文档
python
学术头条42 分钟前
清华团队开源SCAIL-2:角色动画告别骨骼依赖,端到端还原视频中动作细节
人工智能·科技·机器学习·ai·开源·音视频·agi