深度学习-模型调试经验总结

1、
这句话的意思是:期望张量的后端处理是在cpu上,但是实际是在cuda上。排查代码发现,数据还在cpu上,但是模型已经转到cuda上,所以可以通过把数据转到cuda上解决。

解决代码:

python 复制代码
tensor.to("cuda")

2、
解决方法:减小batch size的大小或减小图片的尺寸

3、

原始的代码如下:

python 复制代码
torch.save(model.module.state_dict(), os.path.join(model_prefix, '{}-model.pth'.format(epoch)))

原因:因为只有一块GPU,以上代码是多GPU使用的

解决方法:改为以下单GPU代码:

python 复制代码
        meta = {}
        checkpoint = {"meta": meta, "state_dict": weights_to_cpu(model.state_dict())}
        if optimizer is not None:
            checkpoint["optimizer"] = optimizer.state_dict()
        torch.save(checkpoint, os.path.join(model_prefix, '{}-model.pth'.format(epoch)))

4、原始代码:

python 复制代码
base_net.load_state_dict(torch.load(pretrain_model, map_location='cpu'))

原因:模型参数文件是保存在了state_dict中,所以后面要加

解决方法:改成以下代码:

python 复制代码
base_net.load_state_dict(torch.load(pretrain_model, map_location='cpu')["state_dict"])
相关推荐
无心水13 分钟前
【OpenClaw:应用与协同】23、OpenClaw生产环境安全指南——Token管理/沙箱隔离/权限最小化
大数据·人工智能·安全·ai·性能优化·openclaw
向上的车轮13 分钟前
AI Agent开发框架——站在巨人肩膀上的入门指南(一):思考-行动的循环
人工智能
_YiFei15 分钟前
2026年度论文降重工具全维度评测|高效、合规、低重复率综合榜单
人工智能·深度学习
renhongxia116 分钟前
从模仿到创造:具身智能的技能演化路径
人工智能·深度学习·神经网络·算法·机器学习·知识图谱
刀法如飞29 分钟前
AI时代,人人都是Agent工程师
人工智能·agent·ai编程
思码逸研发效能40 分钟前
代码度量分析入门:从0到1掌握核心指标
大数据·人工智能·研发效能·研发管理
云境筑桃源哇42 分钟前
亿迈跨境分销商城启航
大数据·人工智能
梯度下降中1 小时前
Softmax与交叉熵手撕
人工智能·机器学习
咕噜企业分发小米1 小时前
GPUStack × MaxKB:打造强大易用的开源企业级智能体平台(下)
人工智能
WitsMakeMen1 小时前
RoPE 算法原理?算法为什么只和相对位置有关
人工智能·算法·llm