大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
盐焗西兰花5 小时前
鸿蒙学习实战之路 - 图片预览功能实现
学习·华为·harmonyos
Xudde.6 小时前
friendly2靶机渗透
笔记·学习·安全·web安全·php
知识分享小能手6 小时前
CentOS Stream 9入门学习教程,从入门到精通, CentOS Stream 9 命令行基础 —语法知识点与实战详解(4)
linux·学习·centos
码界奇点6 小时前
Java Web学习 第15篇jQuery从入门到精通的万字深度解析
java·前端·学习·jquery
摇滚侠6 小时前
零基础小白自学 Git_Github 教程,GitHub Action 基础概念,笔记22
笔记·git·github
车载测试工程师7 小时前
CAPL学习-ETH功能函数-通用函数
网络·学习·tcp/ip·capl·canoe
OAoffice7 小时前
智能学习培训考试平台如何驱动未来组织:重塑人才发展格局
人工智能·学习·企业智能学习考试平台·学练考一体化平台
linly12197 小时前
ERP学习笔记-频域分析之小波变换fieldtrip
笔记·学习
QiZhang | UESTC8 小时前
学习日记day40
学习
大江东去浪淘尽千古风流人物8 小时前
【MSCKF】UpdaterHelper 学习备注
学习