【bug】使用transformers训练二分类任务时,训练损失异常大

使用transformers训练二分类任务时,训练损失异常大

问题

training_loss异常大,在二分类损失中,收敛在1~2附近,而eval_loss却正常(小于0.5)

分析

参考:
Bug in gradient accumulation training_step in huggingface Trainer?
Fix Gradient Accumulation issue
使用解决了多卡gradient accumulation严重BUG的最新transformer库(以及对应的trl库),DPO训练的时候LOSS变为之前的好几倍
New GA fix causes training loss multiple times higher across the board (5x to 10x higher)

版本:trainsformer==4.46.0

怀疑启用training_args.gradient_accumulation_steps后,training_loss变大。

对比后发现,确实启用GA后,training_loss会变大,差不多是不启用GA的4倍。

这下差不多可以确定,在启用GA后,training_loss乘上了GA。

看到社区也有很多人在讨论这个问题,目前transformers最新版本是4.46.3,不知道是否解决了这个问题。

最新版本是4.46.3,不知道是否解决了这个问题。

transformers怎么这么多bug...


20241122:实测4.46.3版本还是未解决使用GA后,训练损失偏大的问题。

相关推荐
pip install USART8 小时前
解决@Autowired注解失败导致空指针bug
java·spring·bug
Bear on Toilet11 小时前
接入OpenAI无法发送请求,响应为空?Bug: C++ 接入 OpenAI 中转 API
后端·ai·bug
弹简特16 小时前
【测试基础-Bug篇】10-Bug禅道工具使用及测试计划文档编写
bug
阿 才2 天前
正点原子阿尔法imux6ull烧录不进tf卡程序
bug
风酥糖2 天前
Godot游戏练习01-第19节-解决多人游戏bug
游戏·bug·godot
弹简特3 天前
【测试基础-Bug篇】09-测试用例的评审和测试执行之Bug定义及Bug生命周期及Bug管理流程
测试用例·bug
Roselind_Yi3 天前
排查Visual C++堆损坏(HEAP CORRUPTION)错误:从报错到解决的完整复盘
java·开发语言·c++·spring·bug·学习方法·远程工作
云和数据.ChenGuang3 天前
langchain安装过程中的故障bug
人工智能·langchain·bug·langsmith·langchain-core
Yao.Li3 天前
PVN3D 模型训练 Bug 调试指南
bug
初圣魔门首席弟子4 天前
bug2026.03.24
c++·bug