大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
im_AMBER3 小时前
React 17
前端·javascript·笔记·学习·react.js·前端框架
报错小能手4 小时前
C++笔记——STL map
c++·笔记
谷歌开发者4 小时前
Web 开发指向标 | Chrome 开发者工具学习资源 (六)
前端·chrome·学习
lkbhua莱克瓦245 小时前
Java基础——集合进阶3
java·开发语言·笔记
QT 小鲜肉6 小时前
【QT/C++】Qt定时器QTimer类的实现方法详解(超详细)
开发语言·数据库·c++·笔记·qt·学习
MeowKnight9586 小时前
【Qt】Qt实践记录3——UDP通信
笔记·qt
REDcker6 小时前
前端打包工具 - Rollup 打包工具笔记
前端·笔记
lkbhua莱克瓦246 小时前
Java基础——集合进阶用到的数据结构知识点1
java·数据结构·笔记·github
Mr.Jessy7 小时前
Web APIs 学习第五天:日期对象与DOM节点
开发语言·前端·javascript·学习·html
进化中的码农7 小时前
Go中的泛型编程和reflect(反射)
开发语言·笔记·golang