使用transformers训练二分类任务时,训练损失异常大
问题
training_loss
异常大,在二分类损失中,收敛在1~2附近,而eval_loss
却正常(小于0.5)
分析
参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)
版本:trainsformer==4.46.0
怀疑启用training_args.gradient_accumulation_steps
后,training_loss变大。
对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。
这下差不多可以确定,在启用GA后,training_loss乘上了GA。
看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。
最新版本是4.46.3,不知道是否解决了这个问题。
transformers怎么这么多bug...
20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。