深度学习踩坑记录

深度学习踩坑记录

在跑一个深度学习的项目的时候,为了计算每个epoch的Loss,肯定要把每个batch_size的loss给加起来,就会有类似如下的代码

python 复制代码
train_loss += loss

是的当时手抖,忘了是loss.item(),代码也能正常运行,也能正常算,并且每一步需要跑的时间也是一样的,但是这样会导致每一步的内存都是叠加的。并且这种占显存的方式你在nvidia-smi还看不出来,得去htop里面看,一看好家伙,显存占的高的离谱,正常来说我就占4个G,他占了十几个G,当时就感觉不对劲了,后面发现这叫显存泄露

总而言之言而总之,如果你直接+loss,也能跑,结果也是一样的,但是这就会导致需要的内存一步步的叠加,我是跑到10几个epoch的时候莫名其妙被killed了,去查了一下是out of memory的问题,刚开始还以为是别的因素,后面才发现是我的问题T T

相关推荐
无忧智库4 分钟前
某电力公司“十五五”源网荷储多Agent协调控制与虚拟电厂平台建设方案深度解析(WORD)
人工智能
Zzz 小生7 分钟前
LangChain Streaming-Overview:流式处理使用完全指南
人工智能·python·语言模型·langchain·github
shadowcz0078 分钟前
刚刚,谷歌发布了Gemini 3.1 Pro,同时Google AI Studio也已经支持全栈应用开发。
人工智能
Dev7z1 小时前
基于LSTM神经网络的共享单车需求预测系统设计与实现
人工智能·神经网络·lstm
Open Source Thoughts1 小时前
OpenClaw.ai:Agentic AI 时代的“SpringFramework”时刻
java·人工智能·spring·prompt·开源软件·agi·ai-native
Loo国昌1 小时前
【AI应用开发实战】 03_LangGraph运行时与状态图编排:从直接执行到图编排的演进之路
人工智能·后端·python·自然语言处理·prompt
njsgcs1 小时前
ollama 报错dial tcp ipv6:443: connectex: A connection attempt failed because 解决办法
人工智能
眼镜哥(with glasses)2 小时前
0215笔记-语言模型,提问范式与 Token
人工智能·笔记·语言模型
AIMarketing2 小时前
2026年Q1光引GEO 2.0技术原理解析
人工智能
狮子座明仔2 小时前
体验式强化学习:让模型学会“吃一堑长一智“
人工智能·深度学习·自然语言处理