tensorflow GPU训练loss与val loss值差距过大问题

问题

最近在ubuntu gpu上训练模型,训练十轮,结果如下

复制代码
epoch,loss,lr,val_loss
200,nan,0.001,nan
200,0.002468767808750272,0.001,44.29948425292969
201,0.007177405059337616,0.001,49.16984176635742
202,0.012423301115632057,0.001,49.30305862426758
203,0.019116541370749474,0.001,48.27520751953125
204,0.02645580656826496,0.0005,48.38237762451172
205,0.03023119457066059,0.0005,48.2923469543457
206,0.034110430628061295,0.0005,48.55632781982422
207,0.03898066654801369,0.00025,48.616432189941406
208,0.04163944348692894,0.00025,48.568756103515625
209,0.04249056056141853,0.00025,48.68966293334961

发现loss只有0.0几,而val loss达到了四十多,而我是在已经训练好的模型的基础上,使用新的数据集,继续训练的,差距这么的大,肯定不是模型过拟合,这明显是有异常的,但是我在CPU上训练,结果val和val loss都是-15左右,同样的代码和数据,为什么会出现这么大的差异呢。

解决方案

原因:是因为我用的tensorflow 2.2版本+cuda10.1,而GPU是3090,cuda版本和gpu不适配,需要升级cuda,因此我使用tensorflow 2.4+cuda 11.0后,训练就正常了,

解决方法是在github上看见的
here

相关推荐
java1234_小锋5 分钟前
基于Python深度学习的车辆车牌识别系统(PyTorch2卷积神经网络CNN+OpenCV4实现)视频教程 - 自定义字符图片数据集
python·深度学习·cnn·车牌识别
技术支持者python,php9 分钟前
训练模型,物体识别(opencv)
人工智能·opencv·计算机视觉
爱笑的眼睛1112 分钟前
深入理解MongoDB PyMongo API:从基础到高级实战
java·人工智能·python·ai
辣椒酱.18 分钟前
jupyter相关
python·jupyter
郝学胜-神的一滴22 分钟前
Python中常见的内置类型
开发语言·python·程序人生·个人开发
软件开发技术深度爱好者25 分钟前
基于多个大模型自己建造一个AI智能助手
人工智能
中國龍在廣州37 分钟前
现在人工智能的研究路径可能走反了
人工智能·算法·搜索引擎·chatgpt·机器人
攻城狮7号1 小时前
小米具身大模型 MiMo-Embodied 发布并全面开源:统一机器人与自动驾驶
人工智能·机器人·自动驾驶·开源大模型·mimo-embodied·小米具身大模型
火白学安全1 小时前
《Python红队攻防零基础脚本编写:进阶篇(一)》
开发语言·python·安全·web安全·网络安全·系统安全
搜移IT科技1 小时前
【无标题】2025ARCE亚洲机器人大会暨展览会将带来哪些新技术与新体验?
人工智能