大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
XISHI_TIANLAN1 小时前
【多模态学习】Q&A3:FFN的作用?Embedding生成方法的BERT和Word2Vec?非线性引入的作用?
学习·bert·embedding
用户931356002742 小时前
文件包含漏洞
笔记
KFCcrazy42 小时前
嵌入式学习日记(39)51单片机
嵌入式硬件·学习·51单片机
MuMuMu#3 小时前
JAVA NIO学习笔记基础强化学习总结
java·学习·nio
lingggggaaaa3 小时前
小迪安全v2023学习笔记(七十九讲)—— 中间件安全&IIS&Apache&Tomcat&Nginx&CVE
笔记·学习·安全·web安全·网络安全·中间件·apache
我登哥MVP3 小时前
Java File 类学习笔记
java·笔记·学习
mysla4 小时前
嵌入式学习day44-硬件—ARM体系架构
学习
微露清风4 小时前
系统性学习数据结构-第三讲-栈和队列
java·数据结构·学习
77qqqiqi6 小时前
学习字符串
学习
滴滴滴嘟嘟嘟.6 小时前
Qt动画功能学习
开发语言·qt·学习