Day26下 - 大语言模型的训练train 和微调fine-tune 的区别

CSBLOG2024-12-19 16:35

大语言模型学习的重点：

模型的训练 / 微调
部署模型
上层开发（以 LangChain 家族为核心）
- Open API
- Prompt 开发
- RAG 开发
- Agent 开发

训练 train 和微调 fine-tune 的区别

共同点：

都是修改模型的参数

训练：

从零开始，训练一个大模型
类似买一块布，手动做一条裤子
数据量：
- 预训练 18T
时间：
- 2个月
训练平台：
- 千卡
- 万卡
- H100，A100

微调：

从别人训练号的开源大模型开始，去做一个具体任务微调
类似买一条成品裤，根据腿长剪裤脚
数据量：
- 几十条起
时间：
- 几分钟起
训练平台：
- 能把模型放下即可
- 4090

三阶段：

第一阶段：预训练

Pre-Train
内功修炼
往往是厂家来做
自监督
- 无需标注
自回归方式训练
数据：
- 一段一段的文本
成果：
- base 大模型
- 半成品，不是直接用来做任务，而是让下游任务微调
- 只能进行简单的文本续写（不具备质量遵循和函数调用能力）

第二阶段：监督指令微调

Supervised Finetune
对标业务
对标具体的任务
外功修炼
功能：
- 对标人类聊天习惯
- 指令遵循能力（你让它做什么，它就做什么）
- 函数调用能力（大模型能够判断什么时候需要借助外部函数）
- 复杂推理能力（大模型可以分步骤拆解问题和执行相关的推理）
数据（知识编辑）：
- 问答对 question answer pair
- system
- user
- assistant
- function_call
- history
- ......
两种风格：
- 为了注入知识
- 为了提升能力
并行训练
优秀是一种习惯

第三阶段：偏好优化

RLHF：Reinforcement Learning from Human Feedback
DPO：Direct Preference Optimization
一问两答：
- 一问：一个问题
- 两答：
  - 一个不好的答案：大模型当前的回答
  - 一个好的答案：你修改后的答案
这个阶段做的比较少，因为数据比较难整理
产物：
- chat
- instruct

全程零代码

模型的训练和微调，属于零代码的过程，可能需要做的是数据格式转换。

工程平衡：

重点突出我们的微调能力
但是，不能太大的破坏原有的能力！

模型的测评

大部分微调都把模型给整废了，而不是越来越好。厂家发布的模型半真半假，一般发布的都是最好的模型，咱们拿来整废了是常态，训练好是一件不太容易的事情。为什么不太容易？怎么就整废了？怎么才能弄好？没有万能公式一步到位，是个不断炼丹尝试的过程，比较玄学。

微调：

废了是常态
训练好是一件不太容易的事情

考试：

全学科考试
- MMLU
- CMMLU
- C-Eval
- ......

上一篇：【深度学习】零基础介绍循环神经网络(RNN)

下一篇：COMSOL快捷键及内置函数

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03vue数据变化但页面不变 04KGG转MP3工具|非KGM文件|解密音频 05扣子开源本地部署教程丨Coze智能体小白喂饭级指南 06干翻 Typora！MilkUp：完全免费的桌面端 Markdown 编辑器！07【2025.7.18】更新vscode后所有.vue文件template标签后报红的临时解决办法，Vue - Official 插件3.0.2导致 08ChatGPT Agent 完全使用指南：2025年7月最新功能详解 09《魔兽世界》提示lua警告的含义及解决方法 10这次领先Cursor！体验了Trae 2.0 SOLO 模式，超酷！