【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug...


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

相关推荐
qq_544329173 天前
CRM项目的开发与调试整体策略
前端·后端·bug
程序员小寒7 天前
由于请求的竞态问题,前端仔喜提了一个bug
前端·javascript·bug
Golinie7 天前
记一次Linux共享内存段排除Bug:key值为0x0000000的共享内存段删除不了
linux·bug·共享内存段
谢尔登8 天前
【Bug 记录】el-sub-menu 第一次进入默认不高亮
bug
qq_5443291710 天前
下载一个项目到跑通的大致过程是什么?
javascript·学习·bug
Algorithm-00710 天前
软件测试入门—软件缺陷 Bug 详解
软件测试·bug
从int开始11 天前
加速排查线上bug
bug
LilySesy11 天前
【业务案例】F.13——SAP系统标准的清帐程序有BUG?
运维·bug·sap·abap·esb·internet服务
guhy fighting11 天前
原生toFixed的bug
前端·javascript·bug