技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
li星野
7 小时前
打工人日报#20251231
笔记
孙严Pay
7 小时前
分享三种不同的支付体验,各自有着不同的特点与适用场景。
笔记
·
科技
·
计算机网络
·
其他
·
微信
YJlio
7 小时前
VolumeID 学习笔记(13.10):卷序列号修改与资产标识管理实战
windows
·
笔记
·
学习
weixin_44073050
7 小时前
java数组整理笔记
java
·
开发语言
·
笔记
小龙
7 小时前
【学习笔记】多标签交叉熵损失的原理
笔记
·
学习
·
多标签交叉熵损失
知识分享小能手
8 小时前
Ubuntu入门学习教程,从入门到精通,Ubuntu 22.04的Linux网络配置(14)
linux
·
学习
·
ubuntu
手揽回忆怎么睡
8 小时前
Streamlit学习实战教程级,一个交互式的机器学习实验平台!
人工智能
·
学习
·
机器学习
xiaoxiaoxiaolll
9 小时前
《Advanced Materials》基于MXene的复合纤维实现智能纺织品多模态功能集成
学习
db_murphy
10 小时前
学习篇 | 英方i2Active和i2Stream工具了解
学习
强子感冒了
10 小时前
Java学习笔记:String、StringBuilder与StringBuffer
java
·
开发语言
·
笔记
·
学习
热门推荐
01
GitHub 镜像站点
02
Linux下V2Ray安装配置指南
03
jdk21下载、安装(Windows、Linux、macOS)
04
Claude Code Skills 实用使用手册
05
UV安装并设置国内源
06
从快手“12·22”直播攻击事件看:一次教科书式的业务层饱和攻击
07
2025 最新教程:注册并切换到美区 Apple ID
08
【踩坑笔记】50系显卡适配的 PyTorch 安装
09
手把手教你通过Gemini3 pro 学生认证,白用一年,手慢无!
10
祝大家 2026 年新年快乐,代码无 bug,需求一次过