LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
啦啦啦!20 小时前
ChatGPT和Gemini的接入和封装
人工智能·ios·chatgpt
贺小涛20 小时前
DeepSeek vs ChatGPT:技术架构深度解析与核心优势对比
chatgpt·架构
斯坦SteinY1 天前
Git Worktree + Claude Code同时开发多个功能
人工智能·chatgpt·prompt·aigc·claude·并行开发
正在走向自律1 天前
第二章-AIGC入门-AIGC工具全解析:技术控的效率神器,DeepSeek国产大模型的骄傲(8/36)
人工智能·chatgpt·aigc·可灵·deepseek·即梦·阿里通义千问
sinat_286945192 天前
harness engineering
人工智能·算法·chatgpt
极昆仑智慧2 天前
NL2X技术正从模型驱动到系统工程驱动的范式转变
人工智能·自然语言处理·chatgpt
半页码书2 天前
2026年哪个AI改简历最好用
人工智能·chatgpt·面试·求职招聘·职场发展·远程工作
Lei活在当下3 天前
【Part 1】Harness Engineering 对程序员来说意味着什么?
chatgpt·openai·ai编程
Agent产品评测局3 天前
企业发票管理自动化落地,验真归档全流程实现方法:2026企业级智能体选型与实测指南
运维·网络·人工智能·ai·chatgpt·自动化
花千树-0103 天前
Java AI + TTS:让大模型开口说话
java·人工智能·ai·chatgpt·langchain·aigc·ai编程