大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
- decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
- encoder-only(BERT):计算双向上下文embedding
- encoder-decoder(T5):编码输入,解码输出
2、优化算法
- 随机梯度下降
- Adam
- AdaFactor
- 混合精度训练
- 学习率
- 初始化
注
笔记原始内容地址:添加链接描述
三类语言模型的目标函数:
笔记原始内容地址:添加链接描述