LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
坤坤爱学习2.019 小时前
求医十年,病因不明,ChatGPT:你看起来有基因突变
人工智能·ai·chatgpt·程序员·大模型·ai编程·大模型学
我不是哆啦A梦1 天前
破解风电运维“百模大战”困局,机械版ChatGPT诞生?
运维·人工智能·python·算法·chatgpt
陈敬雷-充电了么-CEO兼CTO1 天前
大模型技术原理 - 基于Transformer的预训练语言模型
人工智能·深度学习·语言模型·自然语言处理·chatgpt·aigc·transformer
小溪彼岸1 天前
GPT-4o的修图能力强的可怕?
chatgpt·aigc
asyxchenchong8882 天前
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模
机器学习·语言模型·chatgpt
赛丽曼2 天前
Assistant API的原理及应用
人工智能·chatgpt
c++服务器开发3 天前
一文详解Character AI:实用指南+ ChatGPT、Gemini对比分析
人工智能·chatgpt
香宝的最强后援XD4 天前
Cursor无限邮箱续费方法
语言模型·chatgpt·文心一言
明似水13 天前
ChatGPT:人工智能对话革命的里程碑与未来展望
人工智能·chatgpt
伊泽瑞尔13 天前
打造极致聊天体验:uz-chat——全端AI聊天组件来了!
后端·chatgpt·openai