LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
带刺的坐椅14 小时前
Solon AI 开发学习4 - chat - 模型实例的构建和简单调用
java·ai·chatgpt·solon
T***16072 天前
DeepSeek在文本生成中的ChatGPT
chatgpt
中國龍在廣州2 天前
现在人工智能的研究路径可能走反了
人工智能·算法·搜索引擎·chatgpt·机器人
七宝大爷2 天前
基于人类反馈的强化学习(RLHF):ChatGPT“对齐”人类的秘密武器
人工智能·chatgpt
shayudiandian2 天前
ChatGPT风格对话机器人搭建教程
人工智能·chatgpt·机器人
世洋Blog2 天前
更好的利用ChatGPT进行项目的开发
人工智能·unity·chatgpt
wavemap3 天前
先到先得:免费订阅一年ChatGPT Go会员
开发语言·chatgpt·golang
带刺的坐椅3 天前
(让 Java IA & MCP 更简单 )Solon AI v3.7.2 发布
ai·chatgpt·openai·solon·mcp
AIBox3653 天前
国内可用 ChatGPT 中文版网站推荐(2025年11月最新)
人工智能·gpt·chatgpt