【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug...


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

相关推荐
何遇mirror4 小时前
【话题】Bug 故事:跨时区的时间转换错误
bug
蜡笔羊驼4 小时前
pyfftw BUG
bug
Evand J4 小时前
写的bug与调试
bug
dr李四维5 小时前
应用商店双弹窗“APP在向用户申请权限时未同步告知用户申请此权限的理由”驳回uni-app应用上线的解决方法
前端·javascript·笔记·uni-app·产品运营·bug·产品经理
代码唐17 小时前
uniapp奇怪bug汇总
uni-app·bug
乄bluefox1 天前
SpringBoot中使用Sharding-JDBC实战(实战+版本兼容+Bug解决)
java·数据库·spring boot·redis·后端·缓存·bug
安和昂1 天前
【iOS】bug调试技巧
ios·bug·cocoa
明月与玄武1 天前
测试人员--如何区分前端BUG和后端BUG
bug·如何区分前端bug和后台bug
清水白石0081 天前
从一个“支付状态不一致“的bug,看大型分布式系统的“隐藏杀机“
java·数据库·bug