大模型训练的优化器选择逻辑 - 大模型训练的优化器选择逻辑技术,学习,经验文章

free-elcmacom

7 个月前

机器学习高阶教程＜2＞优化理论实战：BERT用AdamW、强化学习爱SGD训练BERT时loss突然爆炸，调了学习率、查了数据却毫无头绪？用Adam训练大模型明明“公认更强”，可AlphaGo、ChatGPT的强化学习模块偏要执着于“古老”的SGD？GPU显存不足只能把batch_size从32压到4，结果训练震荡到根本无法收敛？