LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
Geo_V11 小时前
OpenAI 大模型 API 使用示例
python·chatgpt·openai·大模型应用·llm 开发
福大大架构师每日一题11 小时前
⽬前 主流的开源模型体系 有哪些?
chatgpt·开源
Imency1 天前
win10本地部署weknora记录
人工智能·chatgpt
CV-杨帆2 天前
博客阅读:chatgpt 2025 GPT-5 Jailbreak with Echo Chamber and Storytelling
gpt·chatgpt
西西阿西哥2 天前
【随便聊聊】和ChatGPT聊聊潜空间
深度学习·chatgpt
FreeBuf_4 天前
新型Agent感知伪装技术利用OpenAI ChatGPT Atlas浏览器传播虚假内容
人工智能·chatgpt
GPT-Mirrors6 天前
通知:大可Ai镜像版更名为 GPT-Mirrors
人工智能·ai·chatgpt
AI大模型学徒6 天前
Chatbox 安装 for Windows
windows·语言模型·chatgpt
AmazingKO6 天前
推送报错403怎么办?vscode推送项目到github
chatgpt·github·visual studio code·竹相左边
丁学文武6 天前
如何把ChatGPT嵌入到自己的应用中?
人工智能·chatgpt·编码·大模型应用·ai替代