大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
西岸行者4 天前
学习笔记:SKILLS 能帮助更好的vibe coding
笔记·学习
starlaky4 天前
Django入门笔记
笔记·django
勇气要爆发4 天前
吴恩达《LangChain LLM 应用开发精读笔记》1-Introduction_介绍
笔记·langchain·吴恩达
悠哉悠哉愿意4 天前
【单片机学习笔记】串口、超声波、NE555的同时使用
笔记·单片机·学习
勇气要爆发4 天前
吴恩达《LangChain LLM 应用开发精读笔记》2-Models, Prompts and Parsers 模型、提示和解析器
android·笔记·langchain
别催小唐敲代码4 天前
嵌入式学习路线
学习
qianshanxue114 天前
计算机操作的一些笔记标题
笔记
土拨鼠烧电路4 天前
笔记11:数据中台:不是数据仓库,是业务能力复用的引擎
数据仓库·笔记
毛小茛4 天前
计算机系统概论——校验码
学习
土拨鼠烧电路4 天前
笔记14:集成与架构:连接孤岛,构建敏捷响应能力
笔记·架构