【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug...


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

相关推荐
SundayBear6 小时前
HardFault_Handler处理Bug
bug
利来利往6 小时前
【奇怪的bug】lua的nil不报错
开发语言·bug·lua
初圣魔门首席弟子3 天前
flag使用错误出现bug
c++·bug
初圣魔门首席弟子3 天前
友元类和友元函数bug
bug
初圣魔门首席弟子3 天前
switch缺少break出现bug
c++·算法·bug
毕设源码-邱学长3 天前
【开题答辩全过程】以 Bug交流网站为例,包含答辩的问题和答案
bug
debug 小菜鸟3 天前
aws 实战小bug
云计算·bug·aws
黑客飓风3 天前
RTX 4090算力应用
人工智能·chrome·bug
布拉格沃兹基硕德3 天前
MacOS报错“zsh: command not found: brew”【已解决】
macos·bug
清木Moyu3 天前
layui tree组件回显bug问题,父级元素选中导致子集全部选中
前端·bug·layui