技术栈

大模型训练的优化器选择逻辑

free-elcmacom
5 小时前
人工智能·python·机器学习·bert·强化学习·大模型训练的优化器选择逻辑
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD训练BERT时loss突然爆炸,调了学习率、查了数据却毫无头绪?用Adam训练大模型明明“公认更强”,可AlphaGo、ChatGPT的强化学习模块偏要执着于“古老”的SGD?GPU显存不足只能把batch_size从32压到4,结果训练震荡到根本无法收敛?
我是有底线的