技术栈

大模型学习笔记06——模型训练

等风来随风飘2024-01-20 13:09

大模型学习笔记06------模型训练

1、目标函数

三类语言模型的目标函数:

  1. decoder-only(GPT-3):计算单向上下文embedding,一次生成一个token
  2. encoder-only(BERT):计算双向上下文embedding
  3. encoder-decoder(T5):编码输入,解码输出

2、优化算法

  • 随机梯度下降
  • Adam
  • AdaFactor
  • 混合精度训练
  • 学习率
  • 初始化

注

笔记原始内容地址:添加链接描述

上一篇:WhaleQuant第二章——金融市场的基本概念
下一篇:el-image的preview-src-list图片预览总是从第一张的问题
相关推荐
网络工程小王
3 分钟前
【大数据技术详解】——Kibana(学习笔记)
大数据·笔记·学习
im_AMBER
6 分钟前
Leetcode 144 位1的个数 | 只出现一次的数字
学习·算法·leetcode
red_redemption
12 分钟前
自由学习记录(144)
学习
努力的lpp
16 分钟前
2024小迪安全课程第四节复习笔记
笔记·安全
adore.968
1 小时前
3.20 复试学习
学习
Master_oid
1 小时前
机器学习35:元学习的应用
人工智能·学习·机器学习
想七想八不如11408
2 小时前
SQL操作学习
数据库·sql·学习
雷工笔记
2 小时前
AI使用|通过AI学习物料分类编码表
笔记·学习
Shea的笔记本
2 小时前
MindSpore实战笔记:WaveNet音乐生成复现全记录
笔记
热门推荐
01GitHub 镜像站点02Qwen3.5 开源全解析:从 0.8B 到 397B,代际升级 + 全场景选型指南03围棋-html版本04小黑课堂计算机二级WPSoffice题库软件下载安装教程(2026年3月最新版)05班级宠物园部署指南06OpenClaw 使用和管理 MCP 完全指南07AI 编程三剑客:Spec-Kit、OpenSpec、Superpowers 深度对比与实战指南08OpenClaw Control UI安全上下文访问配置09UV安装并设置国内源10“wsl --install -d Ubuntu-22.04”下载慢,中国地区离线安装 Ubuntu 22.04 WSL方法(亲测2025年5月6日)