深度学习踩坑记录

深度学习踩坑记录

在跑一个深度学习的项目的时候,为了计算每个epoch的Loss,肯定要把每个batch_size的loss给加起来,就会有类似如下的代码

python 复制代码
train_loss += loss

是的当时手抖,忘了是loss.item(),代码也能正常运行,也能正常算,并且每一步需要跑的时间也是一样的,但是这样会导致每一步的内存都是叠加的。并且这种占显存的方式你在nvidia-smi还看不出来,得去htop里面看,一看好家伙,显存占的高的离谱,正常来说我就占4个G,他占了十几个G,当时就感觉不对劲了,后面发现这叫显存泄露

总而言之言而总之,如果你直接+loss,也能跑,结果也是一样的,但是这就会导致需要的内存一步步的叠加,我是跑到10几个epoch的时候莫名其妙被killed了,去查了一下是out of memory的问题,刚开始还以为是别的因素,后面才发现是我的问题T T

相关推荐
木枷3 分钟前
Immersion in the GitHub Universe: Scaling Coding Aents to Mastery
人工智能·软件工程·swe
互联网江湖4 分钟前
鹿客科技IPO,陈彬不想“站在门外”
大数据·人工智能·物联网
Lw中6 分钟前
大模型生成内容出错
人工智能·rag·大模型应用开发
星爷AG I8 分钟前
14-9 够取与抓握(AGI基础理论)
人工智能·计算机视觉·agi
workflower9 分钟前
AI在旅游业的应用
人工智能·aigc·测试用例·ai编程·ai写作
GAOJ_K11 分钟前
滚柱导轨安装后如精度偏差对机械设备有影响吗?
运维·人工智能·科技·自动化·制造
Sendingab14 分钟前
LuoGen-罗根AI 数字人IP口播视频自动化生成工具
人工智能·ai·数字人·自媒体·ai智能体·口播·罗根
沃达德软件15 分钟前
AI视频监控:智慧场馆安防升级
图像处理·人工智能·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
NAGNIP24 分钟前
程序员最强AI画图工具大全!
人工智能·架构