tensorflow GPU训练loss与val loss值差距过大问题

问题

最近在ubuntu gpu上训练模型,训练十轮,结果如下

复制代码
epoch,loss,lr,val_loss
200,nan,0.001,nan
200,0.002468767808750272,0.001,44.29948425292969
201,0.007177405059337616,0.001,49.16984176635742
202,0.012423301115632057,0.001,49.30305862426758
203,0.019116541370749474,0.001,48.27520751953125
204,0.02645580656826496,0.0005,48.38237762451172
205,0.03023119457066059,0.0005,48.2923469543457
206,0.034110430628061295,0.0005,48.55632781982422
207,0.03898066654801369,0.00025,48.616432189941406
208,0.04163944348692894,0.00025,48.568756103515625
209,0.04249056056141853,0.00025,48.68966293334961

发现loss只有0.0几,而val loss达到了四十多,而我是在已经训练好的模型的基础上,使用新的数据集,继续训练的,差距这么的大,肯定不是模型过拟合,这明显是有异常的,但是我在CPU上训练,结果val和val loss都是-15左右,同样的代码和数据,为什么会出现这么大的差异呢。

解决方案

原因:是因为我用的tensorflow 2.2版本+cuda10.1,而GPU是3090,cuda版本和gpu不适配,需要升级cuda,因此我使用tensorflow 2.4+cuda 11.0后,训练就正常了,

解决方法是在github上看见的
here

相关推荐
面朝大海,春不暖,花不开3 分钟前
Java服务提供者模式实现指南
java·开发语言·python
mit6.8247 分钟前
[Data Pipeline] MinIO存储(数据湖) | 数据层 Bronze/Silver/Gold
数据库·python
甜辣uu8 分钟前
第七届人工智能技术与应用国际学术会议
人工智能·ei会议·中文核心·国际学术会议
艾立泰智能包装10 分钟前
艾立泰智能物流载具管理方案
大数据·人工智能
舒一笑18 分钟前
基础RAG实现,最佳入门选择(五)
人工智能
爱看科技23 分钟前
谷歌Gemini 2.5全系领跑AI赛道,微美全息加码构建AI+多模态交互生态新范式
人工智能
love530love27 分钟前
Python 开发环境全栈隔离架构:从 Anaconda 到 PyCharm 的四级防护体系
运维·ide·人工智能·windows·python·架构·pycharm
烧烤店小蚂蚁29 分钟前
打卡Day55
python
m0_7513363942 分钟前
机器学习赋能多尺度材料模拟:前沿技术会议邀您共探
人工智能·深度学习·机器学习·第一性原理·分子动力学·vasp·复合材料
刘瑞瑞rr1 小时前
python画三维立体图
开发语言·python