大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
浅念-21 分钟前
C语言小知识——指针(3)
c语言·开发语言·c++·经验分享·笔记·学习·算法
burning_maple1 小时前
mysql数据库笔记
数据库·笔记·mysql
hkNaruto1 小时前
【AI】AI学习笔记:LangGraph 与 LangChain的关系以及系统性学习路线选择
笔记·学习·langchain
jrlong1 小时前
DataWhale大模型基础与量化微调task3学习笔记(第 5章:深入大模型架构_MoE 架构解析)
笔记·学习
wdfk_prog3 小时前
[Linux]学习笔记系列 --[drivers][base]map
linux·笔记·学习
浅念-3 小时前
链表经典面试题目
c语言·数据结构·经验分享·笔记·学习·算法
石像鬼₧魂石3 小时前
Windows Server 2003 域控制器靶机搭建与渗透环境配置手册
linux·windows·学习
啥都会点的大秀4 小时前
声学仿真学习笔记
笔记·学习
好奇龙猫4 小时前
【AI学习-comfyUI学习-三十六节-黑森林-融合+扩图工作流-各个部分学习】
人工智能·学习
不会代码的小猴4 小时前
Linux环境编程第三天笔记
linux·笔记