LLM-chatgpt训练过程

流程简介

  • 主要包含模型预训练和指令微调两个阶段
    • 模型预训练:搜集海量的文本数据,无监督的训练自回归decoder;
      O T = P ( O t < T ) O_T=P(O_{t<T}) OT=P(Ot<T),损失函数CE loss
    • 指令微调:在输入文本中加入任务提示,
      • 输入 "翻译文本为英文:无监督训练。译文:",让模型输出 "Non-supervised"
      • 也是一个自回归训练的过程,损失函数和预训练一样,但是输入数据是有范式的。

指令微调

  • 指令微调一般分成三个阶段
    • 从用户那里收集到大量的问题,邀请专业的人士给出高质量的答案 ,然后用这些数据fine-tune生成模型;
    • 让训练过的生成模型基于用户问题给出多次答案,并邀请真人对答案的质量进行打分,这些打分的数据用户训练reward model;
    • 生成模型+reward model串起来,就可以自己生成答案,自己评价结果的好坏,不断进行优化。

参考博客

brightliao-ChatGPT 的模型训练

相关推荐
云天AI实战派11 小时前
2026 跨境出海全流程实战:独立开发者如何用开源工具搭建落地页、订阅支付、客服工单与多语言 SEO 闭环
人工智能·安全·chatgpt·个人开发·独立开发·跨境出海
凯丨12 小时前
从零构建一个 MCP Server:让 Claude 和 ChatGPT 接入你自己的工具
chatgpt
ComPDFKit12 小时前
使用AI Agent自动化生成订单/发票/合同:从自然语言到PDF的一站式方案
人工智能·chatgpt·智能合约
DS随心转APP12 小时前
2026年AI对话导出Word完全指南|ChatGPT/DeepSeek/豆包/Claude一键转换–AI导出鸭
人工智能·ai·chatgpt·豆包·deepseek·ai导出鸭
Nayxxu13 小时前
ChatGPT API 中转站技术选型与接入实测:从词元无忧 API(token5u API)开始更省事
人工智能·chatgpt
武子康14 小时前
调查研究-148 Deepseek-V4-Flash 生成式AI十大高频业务场景落地指南
大数据·人工智能·深度学习·ai·chatgpt·deepseek
企服AI产品测评局1 天前
Agent适配信创环境实测:企业级自动化如何实现国产操作系统与数据库全兼容?
运维·数据库·人工智能·ai·chatgpt·自动化
rannn_1111 天前
OpenAI Function Calling 全解析:从函数定义到流式调用
人工智能·chatgpt·openai·ai agent
战族狼魂1 天前
Claude 大模型在真实业务场景中的落地应用指南
人工智能·chatgpt·大模型
武子康1 天前
Ollama 2026最新实践:从本地大模型到本地+云端+Agent工具链
人工智能·ai·chatgpt·ollama·deepseek