【bug】使用transformers训练二分类任务时，训练损失异常大

LittleSeedling2024-11-25 9:27

使用transformers训练二分类任务时，训练损失异常大

问题
分析

问题

training_loss异常大，在二分类损失中，收敛在1~2附近，而eval_loss却正常（小于0.5）

分析

参考：
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库（以及对应的trl库），DPO训练的时候LOSS变为之前的好几倍
 New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本：trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后，training_loss变大。

对比后发现，确实启用GA后，training_loss会变大，差不多是不启用GA的4倍。

这下差不多可以确定，在启用GA后，training_loss乘上了GA。

看到社区也有很多人在讨论这个问题，目前transformers最新版本是4.46.3，不知道是否解决了这个问题。

最新版本是4.46.3，不知道是否解决了这个问题。

transformers怎么这么多bug...

20241122：实测4.46.3版本还是未解决使用GA后，训练损失偏大的问题。