技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
网络工程小王
3 分钟前
【大数据技术详解】——Kibana(学习笔记)
大数据
·
笔记
·
学习
im_AMBER
6 分钟前
Leetcode 144 位1的个数 | 只出现一次的数字
学习
·
算法
·
leetcode
red_redemption
12 分钟前
自由学习记录(144)
学习
努力的lpp
16 分钟前
2024小迪安全课程第四节复习笔记
笔记
·
安全
adore.968
1 小时前
3.20 复试学习
学习
Master_oid
1 小时前
机器学习35:元学习的应用
人工智能
·
学习
·
机器学习
想七想八不如11408
2 小时前
SQL操作学习
数据库
·
sql
·
学习
雷工笔记
2 小时前
AI使用|通过AI学习物料分类编码表
笔记
·
学习
Shea的笔记本
2 小时前
MindSpore实战笔记:WaveNet音乐生成复现全记录
笔记
热门推荐
01
GitHub 镜像站点
02
Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南
03
围棋-html版本
04
小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)
05
班级宠物园部署指南
06
OpenClaw 使用和管理 MCP 完全指南
07
AI 编程三剑客:Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南
08
OpenClaw Control UI安全上下文访问配置
09
UV安装并设置国内源
10
“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)