技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
仲芒
8 分钟前
[24年单独笔记] MySQL 常用的 DML 命令
数据库
·
笔记
·
mysql
lwewan
15 分钟前
CPU 调度
笔记
·
考研
John.Lewis
28 分钟前
C++进阶(6)C++11(2)
开发语言
·
c++
·
笔记
才知道的
34 分钟前
stm32F407学习DAY.27 ADC
stm32
·
嵌入式硬件
·
学习
Orange_sparkle
42 分钟前
learn claude code学习记录-S02
java
·
python
·
学习
小郑加油
44 分钟前
python学习Day1:python的安装与环境搭载
python
·
学习
·
小白记录,保姆式教程
CheerWWW
2 小时前
C++学习笔记——栈内存与堆内存、宏、auto、std::array
c++
·
笔记
·
学习
知识分享小能手
2 小时前
MongoDB入门学习教程,从入门到精通,在生产环境中设置MongoDB(21)
数据库
·
学习
·
mongodb
L.fountain
2 小时前
图像自回归生成(Auto-regressive image generation)实战学习(六)
学习
·
数据挖掘
·
回归
-许平安-
2 小时前
MCP项目笔记十(客户端 MCPClient)
c++
·
笔记
·
ai
·
raii
·
mcp
·
pluginapi
·
plugin system
热门推荐
01
2026年4月技术前沿:AI大模型爆发、智能体革命与量子安全新纪元
02
一周AI热点速览(2026.03.31-04.06):GPT-6曝光、谷歌开源Gemma 4、资本狂飙与模型军备竞赛
03
GitHub 镜像站点
04
基于 Docker 部署 Hermes Agent 并接入飞书机器人的完整指南
05
AI Weekly | 2026年4月第二周 · GitHub热门项目与AI发展趋势深度解析
06
免费!不限量!用opencode接入英伟达(NVIDIA)大模型,轻松打造你的 AI 编程助手
07
Oh My Codex 快速使用指南
08
CodeBuddy与WorkBuddy深度对比:腾讯两款AI工具差异及实操指南
09
从限购到畅通:GLM-5.1 Coding Plan接入攻略
10
VMware Workstation Pro 17 虚拟机完整安装教程(2026最新)