LLM-chatgpt训练过程

林林宋2023-08-28 12:07

流程简介

主要包含模型预训练和指令微调两个阶段
- 模型预训练：搜集海量的文本数据，无监督的训练自回归decoder；
  O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T)，损失函数CE loss
- 指令微调：在输入文本中加入任务提示，
  - 输入 "翻译文本为英文：无监督训练。译文："，让模型输出 "Non-supervised"
  - 也是一个自回归训练的过程，损失函数和预训练一样，但是输入数据是有范式的。

指令微调

指令微调一般分成三个阶段
- 从用户那里收集到大量的问题，邀请专业的人士给出高质量的答案，然后用这些数据fine-tune生成模型；
- 让训练过的生成模型基于用户问题给出多次答案，并邀请真人对答案的质量进行打分，这些打分的数据用户训练reward model；
- 生成模型+reward model串起来，就可以自己生成答案，自己评价结果的好坏，不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

上一篇：R语言02-R语言中的向量

下一篇：【案例教程】高分论文密码：大尺度空间模拟预测与数字制图

热门推荐

01GitHub 镜像站点 02【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 03BongoCat - 跨平台键盘猫动画工具 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 08全球最强模型Grok4，国内已可免费使用！（附教程）09Labelme从安装到标注：零基础完整指南 1046个Nano-banana 精选提示词，持续更新中