技术栈
大模型学习笔记06——模型训练
等风来随风飘
2024-01-20 13:09
大模型学习笔记06------模型训练
1、目标函数
三类语言模型的目标函数:
decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
encoder-only(BERT):计算双向上下文embedding
encoder-decoder(T5):编码输入,解码输出
2、优化算法
随机梯度下降
Adam
AdaFactor
混合精度训练
学习率
初始化
注
笔记原始内容地址:
添加链接描述
笔记
学习
上一篇:
WhaleQuant第二章——金融市场的基本概念
下一篇:
el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
浅念-
21 分钟前
C语言小知识——指针(3)
c语言
·
开发语言
·
c++
·
经验分享
·
笔记
·
学习
·
算法
burning_maple
1 小时前
mysql数据库笔记
数据库
·
笔记
·
mysql
hkNaruto
1 小时前
【AI】AI学习笔记:LangGraph 与 LangChain的关系以及系统性学习路线选择
笔记
·
学习
·
langchain
jrlong
1 小时前
DataWhale大模型基础与量化微调task3学习笔记(第 5章:深入大模型架构_MoE 架构解析)
笔记
·
学习
wdfk_prog
3 小时前
[Linux]学习笔记系列 --[drivers][base]map
linux
·
笔记
·
学习
浅念-
3 小时前
链表经典面试题目
c语言
·
数据结构
·
经验分享
·
笔记
·
学习
·
算法
石像鬼₧魂石
3 小时前
Windows Server 2003 域控制器靶机搭建与渗透环境配置手册
linux
·
windows
·
学习
啥都会点的大秀
4 小时前
声学仿真学习笔记
笔记
·
学习
好奇龙猫
4 小时前
【AI学习-comfyUI学习-三十六节-黑森林-融合+扩图工作流-各个部分学习】
人工智能
·
学习
不会代码的小猴
4 小时前
Linux环境编程第三天笔记
linux
·
笔记
热门推荐
01
GitHub 镜像站点
02
OpenCode 入门教程:介绍 · 安装 · 配置第三方 API (如 Claude)
03
在VSCode配置Java开发环境的保姆级教程(适配各类AI编程IDE)
04
AI 规范驱动开发“三剑客”深度对比:Spec-Kit、Kiro 与 OpenSpec 实战指南
05
UV安装并设置国内源
06
Claude Code Skills 实用使用手册
07
BongoCat - 跨平台键盘猫动画工具
08
Linux下V2Ray安装配置指南
09
安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口(持续更新)
10
2025 Telegram 最新免费社工库机器人(LetsTG可[特殊字符])搭建指南(含 Python 脚本)