大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
三次拒绝王俊凯23 分钟前
删除Microsoft Edge中的在线填充数据
学习
楼田莉子42 分钟前
(3万字详解)Linux系统学习:深入了解Linux系统开发工具
linux·服务器·笔记·git·学习·vim
幸运狗头2 小时前
Linux学习-应用软件编程(fread/fwrite,流定义相关接口)
学习
思扬09289 小时前
前端学习日记 - 前端函数防抖详解
前端·学习
芥子须弥Office10 小时前
从C++0基础到C++入门 (第二十五节:指针【所占内存空间】)
c语言·开发语言·c++·笔记
Starry_hello world11 小时前
MySql 表的操作
数据库·笔记·mysql
小郝 小郝12 小时前
开启单片机
c语言·单片机·嵌入式硬件·学习·51单片机
使二颗心免于哀伤13 小时前
《设计模式之禅》笔记摘录 - 14.组合模式
笔记·设计模式·组合模式
小杜的生信筆記13 小时前
基于R语言,“上百种机器学习模型”学习教程 | Mime包
开发语言·学习·机器学习·r语言·sci
ZHSH.13 小时前
20250810 | 深度学习入门笔记1
笔记