LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
福宝plus4 分钟前
教你订阅如何使用o3 和 o4-mini、o4-mini-high怎么样?图像推理能力实测效果?o3、o4使用上限制次数说明?
chatgpt·claude·cursor
爱吃的小肥羊30 分钟前
开创先河!o3和o4-mini居然能在思维链思考图片,太逆天了!
chatgpt
Dlimeng21 小时前
OpenAI发布GPT-4.1系列模型——开发者可免费使用
人工智能·ai·chatgpt·openai·ai编程·agents·gpt-41
机器之心21 小时前
刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star
人工智能·chatgpt
Loving_enjoy1 天前
【用ChatGPT学编程】让AI成为你的编程外脑:注释生成与Debug实战秘籍
chatgpt·ai编程
星鹿XINGLOO1 天前
ChatGPT语音功能在iPad上支持吗?全面解答!
人工智能·安全·ios·ai·chatgpt·语音识别·ipad
柯西梦回黄鹤楼1 天前
《Not All Tokens Are What You Need for Pretraining》全文翻译
人工智能·深度学习·机器学习·语言模型·chatgpt
ssshooter2 天前
GPT-4.1 官方提示词指南,速来!
人工智能·chatgpt·程序员
福宝plus2 天前
GPT 4.1 API正式发布!GPT 4.1怎么样?GPT 4.1如何使用?如何免费使用?教你2种方法白嫖!
gpt·chatgpt·cursor
爱吃的小肥羊2 天前
OpenAI正式发布GPT4.1,实力不如Gemini 2.5 Pro/Claude 3.7
chatgpt