技术栈

qwen2vl

西西弗Sisyphus
5 个月前
lora·transformer·qwen2-vl·qwen2vl
模型训练中梯度累积步数(gradient_accumulation_steps)的作用flyfish在使用训练大模型时,TrainingArguments有一个参数梯度累积步数(gradient_accumulation_steps)