LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
PengShuaiD52 分钟前
【AI编码】用ChatGPT基于Whisper+ffmpeg实现一个根据视频字幕执行自动化裁剪本地小工具
人工智能·chatgpt·ffmpeg·whisper
战族狼魂5 分钟前
ChatGPT史诗级更新:Codex + OpenClaw(小龙虾)
人工智能·chatgpt
智算菩萨5 分钟前
ChatGPT 5.4 Thinking与Pro性能深度评测及原理解析
人工智能·深度学习·ai·语言模型·chatgpt
不老刘8 分钟前
《生成式AI消费级应用Top 100——第六版》| a16z
人工智能·chatgpt·a16z
刀客Doc9 分钟前
ChatGPT商业化思路:先做生态,再做生意
chatgpt
人道领域9 小时前
2026全球大模型深度对决:GPT-5、Claude 4、Gemini 3、DeepSeek-R1谁主沉浮?
人工智能·gpt·深度学习·chatgpt·文心一言
哪 吒10 小时前
GPT-5.4上线,编程能力超过Claude Opus 4.6
gpt·ai·chatgpt·openai·claude·gemini
哪 吒10 小时前
国内如何使用Gemini 3.1 Pro?
gpt·ai·chatgpt·gemini
jerrywus14 小时前
Claude Code vs. Codex:终极指南
chatgpt·agent·claude
小兵张健1 天前
白嫖党的至暗时期
人工智能·chatgpt·aigc