技术栈
大模型训练的优化器选择逻辑
free-elcmacom
5 小时前
人工智能
·
python
·
机器学习
·
bert
·
强化学习
·
大模型训练的优化器选择逻辑
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD
训练BERT时loss突然爆炸,调了学习率、查了数据却毫无头绪?用Adam训练大模型明明“公认更强”,可AlphaGo、ChatGPT的强化学习模块偏要执着于“古老”的SGD?GPU显存不足只能把batch_size从32压到4,结果训练震荡到根本无法收敛?
我是有底线的