tensorflow GPU训练loss与val loss值差距过大问题

问题

最近在ubuntu gpu上训练模型,训练十轮,结果如下

复制代码
epoch,loss,lr,val_loss
200,nan,0.001,nan
200,0.002468767808750272,0.001,44.29948425292969
201,0.007177405059337616,0.001,49.16984176635742
202,0.012423301115632057,0.001,49.30305862426758
203,0.019116541370749474,0.001,48.27520751953125
204,0.02645580656826496,0.0005,48.38237762451172
205,0.03023119457066059,0.0005,48.2923469543457
206,0.034110430628061295,0.0005,48.55632781982422
207,0.03898066654801369,0.00025,48.616432189941406
208,0.04163944348692894,0.00025,48.568756103515625
209,0.04249056056141853,0.00025,48.68966293334961

发现loss只有0.0几,而val loss达到了四十多,而我是在已经训练好的模型的基础上,使用新的数据集,继续训练的,差距这么的大,肯定不是模型过拟合,这明显是有异常的,但是我在CPU上训练,结果val和val loss都是-15左右,同样的代码和数据,为什么会出现这么大的差异呢。

解决方案

原因:是因为我用的tensorflow 2.2版本+cuda10.1,而GPU是3090,cuda版本和gpu不适配,需要升级cuda,因此我使用tensorflow 2.4+cuda 11.0后,训练就正常了,

解决方法是在github上看见的
here

相关推荐
网安情报局1 分钟前
AI Agent零信任安全体系解析:核心风险、分层架构与落地全流程
人工智能·安全·架构
质造者2 分钟前
Python 本地 RAG 实战 | Ollama+ChromaDB 实现 PDF 离线智能问答
开发语言·python·pdf·大模型·rag
DO_Community2 分钟前
Mythos级最强 AI 模型 Claude Fable 5 现已上线 DigitalOcean无服务器推理
人工智能·serverless·agent·ai编程·claude
骑士雄师2 分钟前
18.1 星系案例:多智能体宇宙探索系统(学习langgraph 的存储知识)
windows·python·学习
IvorySQL3 分钟前
PostgreSQL 技术日报 (6月8日)|索引预取迭代,AI 安全功能上新
数据库·人工智能·sql·安全·postgresql
小当家.1056 分钟前
AIGrader:一个 AI 作业批改平台的 Java EE 课设实战
java·人工智能·java-ee
weikecms6 分钟前
消费返物业费 + 小区本地生活 CPS 系统|微客云(物业 / 社区 / 本地服务商首选)
人工智能·微信·微客云
用户9940573931456 分钟前
从 Workflow 到 Agent:读 Anthropic 与 OpenAI Agent 指南后的理解
人工智能
萤丰信息6 分钟前
存量焕新 + 绿色低碳,2026 智慧园区转型新路径
大数据·人工智能
ZPC82107 分钟前
如何将机械臂末端定位精度提升至微米如何进行标定
人工智能·算法·机器人