【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug...


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

相关推荐
疏狂难除1 天前
X86-64 Assembly中printf 打印 float 和 double的bug的解决
bug·assembly
nashane3 天前
HarmonyOS 6学习:指南针“文图反向”Bug修复——从“北偏东”变“北偏西”的坐标系纠错
学习·华为·bug·harmonyos
雨季mo浅忆3 天前
记录Vue3项目中的各类问题
前端·bug·vue3
hust_a4 天前
利用AI定位BUG的体验
bug
初圣魔门首席弟子6 天前
bug【已解决】腾讯 WorkBuddy 无法访问:校园网限制导致的网络问题排查全记录
bug
乐兮创想 小林8 天前
企业官网的运维分工模型:内容自助、Bug 终身免费修与服务器托管的边界设计
运维·服务器·bug·网站建设·企业官网·北京网站建设公司
菠萝猫yena8 天前
bug描述规范
bug
乐兮创想 小林8 天前
生物科技官网的工程化设计:产品×应用二维信息架构、多语言与国际化 SEO 实践
运维·服务器·bug·网站建设·企业官网·北京网站建设公司
调问开源问卷DWSurvey8 天前
调问更新5.16~5.30:解锁Excel图片上传,修复多项高频体验Bug
bug
胡图图不糊涂^_^8 天前
测试BUG篇
学习·bug·测试