技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
通信小呆呆
4 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能
·
学习
·
算法
·
机器学习
·
机器人
H__Rick
4 天前
自动对焦学习-3
人工智能
·
学习
·
计算机视觉
Daisy Lee
4 天前
量化学习-第1章-什么是量化金融
学习
·
金融
·
datawhale
Alsn86
4 天前
等待学习-学习目录:Docker 容器安全攻防
学习
·
安全
·
docker
YM52e
4 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习
·
华为
·
harmonyos
·
鸿蒙
·
鸿蒙系统
小雨下雨的雨
4 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习
·
华为
·
harmonyos
·
鸿蒙
闪闪发亮的小星星
4 天前
高斯光以及高斯光公式解释
笔记
cqbzcsq
4 天前
CellFlow虚拟细胞论文阅读
论文阅读
·
人工智能
·
笔记
·
学习
·
生物信息
YangYang9YangYan
4 天前
2026初入职场学习数据分析的价值
学习
·
数据挖掘
·
数据分析
阿米亚波
4 天前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux
·
windows
·
经验分享
·
笔记
·
架构
·
arm
热门推荐
01
2026年6月AI行业全景:从百模大战到Agent元年,这30天发生了什么?
02
2026年6月AI大模型全景报告:GPT-5.6、Claude Opus 4.8、Gemini 3.5,中美AI三足鼎立谁主沉浮?
03
2026 年 AI 编程工具终极横评:Cursor vs Claude Code vs Copilot vs Windsurf
04
【AI】2026 年具身智能模型和世界模型总结
05
GitHub 镜像站点
06
AI科技热点日报 | 2026年6月1日
07
AI一周事件 · 2026-06-03 至 2026-06-09
08
Claude Code、Codex、Cursor三分天下:2026年AI编程Agent生态全景剖析
09
上线仅72小时被强制下架:Claude Fable 5 的短命
10
2026 AI 编程工具终极实战指南:Cursor vs Claude Code vs Copilot,开发者该怎么选?