技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
Slow菜鸟
3 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能
·
学习
ZC跨境爬虫
3 小时前
跟着 MDN 学 HTML day_9:(信件语义标记)
前端
·
css
·
笔记
·
ui
·
html
狐狐生风
4 小时前
LangChain 向量存储:Chroma、FAISS
人工智能
·
python
·
学习
·
langchain
·
faiss
·
agentai
狐狐生风
4 小时前
LangChain RAG 基础
人工智能
·
python
·
学习
·
langchain
·
rag
·
agentai
努力努力再努力FFF
6 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能
·
学习
OBiO2013
7 小时前
Cell | 突破AAV载体容量限制!路中华/姜玉武/刘太安团队开发AAVLINK系统实现大基因递送
笔记
智者知已应修善业
7 小时前
【51单片机2个按键控制流水灯运行与暂停】2023-9-6
c++
·
经验分享
·
笔记
·
算法
·
51单片机
sakiko_
8 小时前
UIKit学习笔记5-使用UITableView制作聊天页面
笔记
·
学习
·
swift
·
uikit
Alice-YUE
9 小时前
【js高频八股】防抖与节流
开发语言
·
前端
·
javascript
·
笔记
·
学习
·
ecmascript
北山有鸟
9 小时前
修改源码法和插件法
嵌入式硬件
·
学习
热门推荐
01
要裂开了!ChatGPT要手机号验证了?注册Codex要求验证电话号码怎么办?2026年登陆Codex要手机号验证的解决办法
02
GitHub 镜像站点
03
Codex 接入 DeepSeek API 完整配置文档
04
裂开!ChatGPT 居然开始要手机号验证,附详细解决方法
05
【AI】2026 年具身智能模型和世界模型总结
06
零基础教你claude code 接入 deepseek V4
07
2026年AI前瞻:量子AI、具身智能与科学发现的新纪元
08
在Windows 11上安装Docker的踩坑记录
09
实测可用|小米 MiMo 百万亿 Token 免费领,开发者速冲
10
CC-Switch & Claude 基于 Linux 服务器安装使用指南