大模型学习笔记06——模型训练

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

笔记原始内容地址:添加链接描述

相关推荐
一尘之中3 小时前
从C语言底层设计到系统架构评估:软件架构知识体系全景
学习·系统架构·ai写作
sheeta19984 小时前
LeetCode 每日一题笔记 日期:2026.05.29 题目:3300. 最小元素
笔记·leetcode
中屹指纹浏览器5 小时前
2026指纹浏览器代理链路适配原理与多线路集群调度方案
经验分享·笔记
星夜夏空995 小时前
FreeRTOS学习(4)——内存映射
数据库·学习·mongodb
不羁的木木5 小时前
ArkWeb实战学习笔记05-综合实战:构建混合应用
笔记·学习·harmonyos
橙橙笔记5 小时前
Python的学习第一部分
python·学习
bush45 小时前
嵌入式linux学习记录二
linux·运维·学习
CC大煊5 小时前
一个Javaer的AI转型笔记(1):入坑LangChain,我的第一个hello world
笔记·langchain
元气少女小圆丶7 小时前
SenseGlove Nova 2+Unity开发笔记1
笔记·学习·unity
nashane8 小时前
HarmonyOS 6学习:应用退出动画优化实战——从“闪退“到优雅退出的完美蜕变
学习·华为·harmonyos