技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
宵时待雨
8 分钟前
STM32笔记归纳9:定时器
笔记
·
stm32
·
单片机
·
嵌入式硬件
m0_71908411
30 分钟前
React笔记张天禹
前端
·
笔记
·
react.js
Ziky学习记录
44 分钟前
从零到实战:React Router 学习与总结
前端
·
学习
·
react.js
sensen_kiss
1 小时前
INT303 Coursework1 爬取影视网站数据(如何爬虫网站数据)
爬虫
·
python
·
学习
red_redemption
2 小时前
自由学习记录(116)
学习
r i c k
3 小时前
数据库系统学习笔记
数据库
·
笔记
·
学习
野犬寒鸦
3 小时前
从零起步学习JVM || 第一章:类加载器与双亲委派机制模型详解
java
·
jvm
·
数据库
·
后端
·
学习
shandianchengzi
4 小时前
【小白向】错位排列|图文解释公考常见题目错位排列的递推式Dn=(n-1)(Dn-2+Dn-1)推导方式
笔记
·
算法
·
公考
·
递推
·
排列
·
考公
浅念-
4 小时前
C语言编译与链接全流程:从源码到可执行程序的幕后之旅
c语言
·
开发语言
·
数据结构
·
经验分享
·
笔记
·
学习
·
算法
ZH1545589131
4 小时前
Flutter for OpenHarmony Python学习助手实战:API接口开发的实现
python
·
学习
·
flutter
热门推荐
01
GitHub 镜像站点
02
Claude Code + GLM4.7 避坑指南:解决 Unable to connect to Anthropic services
03
openclaw配置教程(linux+局域网ollama)
04
UV安装并设置国内源
05
AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南
06
Linux下V2Ray安装配置指南
07
openclaw使用nginx反代部署过程 与disconnected (1008): pairing required解决
08
在Trae中使用Pencil MCP
09
Claude Code Skills 实用使用手册
10
Vue-skills的中文文档