深度学习踩坑记录

深度学习踩坑记录

在跑一个深度学习的项目的时候,为了计算每个epoch的Loss,肯定要把每个batch_size的loss给加起来,就会有类似如下的代码

python 复制代码
train_loss += loss

是的当时手抖,忘了是loss.item(),代码也能正常运行,也能正常算,并且每一步需要跑的时间也是一样的,但是这样会导致每一步的内存都是叠加的。并且这种占显存的方式你在nvidia-smi还看不出来,得去htop里面看,一看好家伙,显存占的高的离谱,正常来说我就占4个G,他占了十几个G,当时就感觉不对劲了,后面发现这叫显存泄露

总而言之言而总之,如果你直接+loss,也能跑,结果也是一样的,但是这就会导致需要的内存一步步的叠加,我是跑到10几个epoch的时候莫名其妙被killed了,去查了一下是out of memory的问题,刚开始还以为是别的因素,后面才发现是我的问题T T

相关推荐
hsg772 分钟前
简述:小数据集照片分类的模型训练
人工智能·分类·数据挖掘
清 晨3 分钟前
YouTube自动AI标签上线后跨境内容团队如何调整素材审核流程
大数据·人工智能·新媒体运营·内容营销·跨境
qq_283720053 分钟前
2026 最新 Python+AI 零基础入门全教程 :从零搭建人工智能完整项目
开发语言·人工智能·python
拓朗工控5 分钟前
具身智能的“小空间大算力”难题:边缘AI主机如何落地机器人
人工智能·机器人
大江东去浪淘尽千古风流人物8 分钟前
【KV-Tracker】Transformer 实时位姿跟踪:KV-Cache 加速多视图几何网络达 27FPS
网络·深度学习·transformer·slam·位姿估计·kv-cache
小肥君9 分钟前
机器人测试
人工智能·机器人
郑洁文10 分钟前
口罩佩戴状态分类系统
人工智能·分类·数据挖掘·口罩佩戴状态分类
A101693307111 分钟前
从机器翻译到智驾:规则派的黄昏与数据革命的终局(十六)
人工智能·自然语言处理·机器翻译
道可云15 分钟前
2026年高端装备制造行业AI趋势预测:智能体将成为核心生产力
人工智能·制造