深度学习踩坑记录

深度学习踩坑记录

在跑一个深度学习的项目的时候,为了计算每个epoch的Loss,肯定要把每个batch_size的loss给加起来,就会有类似如下的代码

python 复制代码
train_loss += loss

是的当时手抖,忘了是loss.item(),代码也能正常运行,也能正常算,并且每一步需要跑的时间也是一样的,但是这样会导致每一步的内存都是叠加的。并且这种占显存的方式你在nvidia-smi还看不出来,得去htop里面看,一看好家伙,显存占的高的离谱,正常来说我就占4个G,他占了十几个G,当时就感觉不对劲了,后面发现这叫显存泄露

总而言之言而总之,如果你直接+loss,也能跑,结果也是一样的,但是这就会导致需要的内存一步步的叠加,我是跑到10几个epoch的时候莫名其妙被killed了,去查了一下是out of memory的问题,刚开始还以为是别的因素,后面才发现是我的问题T T

相关推荐
睿智的羊8 分钟前
Cove API 的 RAG 模块拆解:一套面向 Agent 的可组合知识检索工具体系
人工智能
love530love10 分钟前
AI Agent + 本地 ComfyUI 无头模式实战:关闭 IDE 后 AI 独立重启并完成图文生成
ide·人工智能·windows·python·音视频·agent·devops
FriendshipT11 分钟前
Ultralytics:解读Attention模块
人工智能·pytorch·python·深度学习·目标检测
生活爱好者!12 分钟前
AI加持的笔记工具,比备忘录好用,NAS一键部署blinko
人工智能·笔记
IT_陈寒13 分钟前
SpringBoot自动配置没生效?你可能漏了这个注解
前端·人工智能·后端
今日综合14 分钟前
2026精选教务管理系统深度分析:功能差异、收费模式全拆解
大数据·人工智能
SilentSamsara18 分钟前
模型部署方案选型:REST/gRPC/批量推理/边缘部署的场景决策
人工智能·深度学习·算法·机器学习
多年小白19 分钟前
第八篇 模拟面试套卷
人工智能·ai·面试·职场和发展
thubier(段新建)23 分钟前
OWTB 3PL 核心主流程与行业落地方案
大数据·人工智能
@realXuan26 分钟前
人工智能AI编程 Agent 入门系列教程之 Claude Code 是什么
人工智能·python·ai编程