技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
im_AMBER
3 小时前
React 17
前端
·
javascript
·
笔记
·
学习
·
react.js
·
前端框架
报错小能手
4 小时前
C++笔记——STL map
c++
·
笔记
谷歌开发者
4 小时前
Web 开发指向标 | Chrome 开发者工具学习资源 (六)
前端
·
chrome
·
学习
lkbhua莱克瓦24
5 小时前
Java基础——集合进阶3
java
·
开发语言
·
笔记
QT 小鲜肉
6 小时前
【QT/C++】Qt定时器QTimer类的实现方法详解(超详细)
开发语言
·
数据库
·
c++
·
笔记
·
qt
·
学习
MeowKnight958
6 小时前
【Qt】Qt实践记录3——UDP通信
笔记
·
qt
REDcker
6 小时前
前端打包工具 - Rollup 打包工具笔记
前端
·
笔记
lkbhua莱克瓦24
6 小时前
Java基础——集合进阶用到的数据结构知识点1
java
·
数据结构
·
笔记
·
github
Mr.Jessy
7 小时前
Web APIs 学习第五天:日期对象与DOM节点
开发语言
·
前端
·
javascript
·
学习
·
html
进化中的码农
7 小时前
Go中的泛型编程和reflect(反射)
开发语言
·
笔记
·
golang
热门推荐
01
GitHub 镜像站点
02
BongoCat - 跨平台键盘猫动画工具
03
UV安装并设置国内源
04
Linux下V2Ray安装配置指南
05
安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)
06
综合整理:pdf预览显示:你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源,请打开此文件以看其内容,如何解决以正常预览文件
07
《大数据技术原理与应用》实验报告三 熟悉HBase常用操作
08
jdk21下载、安装(Windows、Linux、macOS)
09
PyCharm 社区版全平台安装指南
10
npm使用国内淘宝镜像的方法