【内涵】深度学习中的三种变量及pytorch中对应的三种tensor

程序是对现实世界/需求的映射,pytorch也不例外。在深度学习领域中,一般所需要的三种变量及pytorch中对应的三种tensor总结如下:

  1. 不需要反向传播来更新,也不需要保存在模型的文件参数中:这种对应的就是普通的tensor, 例如模型的图片输入tensor和模型的标签tensor。

  2. 不需要反向传播来更新,但是需要保存在模型的文件参数中用于推理的时候加载:这种就对应nn.Module.buffer,最经典的如batch noarm层中的mean和std,这在训练的时候不是反向传播更新而是计算出来的,模型训练完成后,会保存在参数文件中,模型被加载推理的时候,可以被取到。另外,就是如果之前做过目标检测任务的话,有一篇经典的文章gfl, 它也用到了这种变量:

    复制代码
         self.register_buffer('project',
                              torch.linspace(0, self.reg_max, self.reg_max + 1))

这样的话,就会有一个project变量被保存在参数文件中。

  1. 需要反向传播,也需要保存在模型参数文件中用于推理的时候加载:这种就对应nn.Parameter。当然所有层的weights, bias都是这样的变量。另外一个例子,比如说vit论文中的可学习的一个cls token也是这种变量

    self.cls_token = nn.Parameter(torch.randn(num_cls_tokens, dim))

这种也不用记忆,尤其是大模型时代。但是一般想好自己的需要(是否反向传播,是否保存至模型参数文件中),这种如何prompt,如何选择还是要知道,因此总结一下这个小点,作为自己的笔记。

相关推荐
豆豆1 分钟前
当GEO遇见CMS:企业网站管理系统如何适配AI大模型?
人工智能·cms·ai大模型·seo优化·geo优化·企业建站·企业网站管理系统
程序猿乐锅5 分钟前
吴恩达Prompt提示词课有感
人工智能·prompt
倔强的石头1069 分钟前
Dify 接入蓝耘 MaaS:从 0 搭建一个企业知识库问答助手
人工智能·dify·蓝耘
黄啊码9 分钟前
【黄啊码】为什么你写好的 Skill,Agent 也许看不懂?
人工智能
YueJoy.AI9 分钟前
非结构化业务中AI创业原型系统的极速交付
人工智能·ai·语言模型
黎阳之光10 分钟前
无感定位·智管全域:黎阳之光人员无感定位管理系统,重新定义安全与效率
人工智能·物联网·算法·安全·数字孪生
俊哥V12 分钟前
每日 AI 研究简报 · 2026-06-01
人工智能·ai
轮子飞了16 分钟前
记一次 Spring AI Alibaba + 百炼的踩坑:结构化输出与联网搜索的冲突
人工智能·python·spring
欧阳天羲16 分钟前
AI智能水枪完整开发攻略
人工智能·macos·xcode
逻辑君17 分钟前
Foresight研究报告【20260015】
人工智能·数学建模