深度学习踩坑记录

深度学习踩坑记录

在跑一个深度学习的项目的时候,为了计算每个epoch的Loss,肯定要把每个batch_size的loss给加起来,就会有类似如下的代码

python 复制代码
train_loss += loss

是的当时手抖,忘了是loss.item(),代码也能正常运行,也能正常算,并且每一步需要跑的时间也是一样的,但是这样会导致每一步的内存都是叠加的。并且这种占显存的方式你在nvidia-smi还看不出来,得去htop里面看,一看好家伙,显存占的高的离谱,正常来说我就占4个G,他占了十几个G,当时就感觉不对劲了,后面发现这叫显存泄露

总而言之言而总之,如果你直接+loss,也能跑,结果也是一样的,但是这就会导致需要的内存一步步的叠加,我是跑到10几个epoch的时候莫名其妙被killed了,去查了一下是out of memory的问题,刚开始还以为是别的因素,后面才发现是我的问题T T

相关推荐
PNP Robotics几秒前
连接AI产业·链动全球|PNP机器人亮相2026杭州全球人工智能大会
人工智能·python·学习·开源
Dev7z2 分钟前
面向健身与康复训练的基于深度学习的人体姿态检测与动作纠正系统
人工智能·深度学习·健身·康复训练·人体姿态检测·动作纠正系统
咚咚王者3 分钟前
人工智能之语言领域 自然语言处理 第七章 命名实体识别
人工智能·自然语言处理
我材不敲代码4 分钟前
计算机视觉基础——opencv的基础操作
人工智能·opencv·计算机视觉
搬砖者(视觉算法工程师)4 分钟前
用直白语言讲透 Transformer
人工智能
VALENIAN瓦伦尼安教学设备4 分钟前
便携式蒸汽阀门漏气检测仪作用
人工智能·嵌入式硬件·算法
成都它思科技有限公司5 分钟前
语音识别错误率是多少,我们认为错误率是多少?
人工智能·语音识别
Cx330❀5 分钟前
Linux ELF格式与可执行程序加载全解析:从磁盘文件到运行进程
linux·运维·服务器·人工智能·科技
杜子不疼.6 分钟前
2026年AI Agent实战:从玩具到生产力的落地手册(附源码)
人工智能
科技快报7 分钟前
华为发布AI数据平台,重塑数据基座,加速企业AI应用落地
大数据·人工智能·华为