大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
仲芒8 分钟前
[24年单独笔记] MySQL 常用的 DML 命令
数据库·笔记·mysql
lwewan15 分钟前
CPU 调度
笔记·考研
John.Lewis28 分钟前
C++进阶(6)C++11(2)
开发语言·c++·笔记
才知道的34 分钟前
stm32F407学习DAY.27 ADC
stm32·嵌入式硬件·学习
Orange_sparkle42 分钟前
learn claude code学习记录-S02
java·python·学习
小郑加油44 分钟前
python学习Day1:python的安装与环境搭载
python·学习·小白记录,保姆式教程
CheerWWW2 小时前
C++学习笔记——栈内存与堆内存、宏、auto、std::array
c++·笔记·学习
知识分享小能手2 小时前
MongoDB入门学习教程,从入门到精通,在生产环境中设置MongoDB(21)
数据库·学习·mongodb
L.fountain2 小时前
图像自回归生成(Auto-regressive image generation)实战学习(六)
学习·数据挖掘·回归
-许平安-2 小时前
MCP项目笔记十(客户端 MCPClient)
c++·笔记·ai·raii·mcp·pluginapi·plugin system