大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
Dann Hiroaki5 小时前
笔记分享: 哈尔滨工业大学CS31002编译原理——02. 语法分析
笔记·算法
KhalilRuan5 小时前
Unity-MMORPG内容笔记-其三
笔记
九年义务漏网鲨鱼5 小时前
【大模型学习 | MINIGPT-4原理】
人工智能·深度学习·学习·语言模型·多模态
jz_ddk5 小时前
[学习] C语言数学库函数背后的故事:`double erf(double x)`
c语言·开发语言·学习
kfepiza6 小时前
Debian的`/etc/network/interfaces`的`allow-hotplug`和`auto`对比讲解 笔记250704
linux·服务器·网络·笔记·debian
爱莉希雅&&&7 小时前
技术面试题,HR面试题
开发语言·学习·面试
Chef_Chen8 小时前
从0开始学习计算机视觉--Day08--卷积神经网络
学习·计算机视觉·cnn
weixin_446260858 小时前
Isaac Lab:让机器人学习更简单的开源框架
学习·机器人
I'm写代码9 小时前
el-tree树形结构笔记
javascript·vue.js·笔记
我真不会起名字啊10 小时前
OpenSceneGraph(OSG)开发学习
学习