[大模型实战 05] 大模型实战的杀手锏：模型微调

核心摘要 (TL;DR)

实操验证：通过 Kaggle 代码亲自运行对比，揭示 Base 模型（"续写怪"）与 Instruct 模型（"对话助手"）的本质差异。

原理揭秘：图解大模型从"预训练(Pre-training)"到"指令微调(SFT)"再到"人类对齐(RLHF)"的三段进化史。

决策指南：RAG 负责"注知识"，微调负责"塑性格"。本文将帮你彻底理清 Prompt 工程、RAG 与微调的技术边界与选型策略。

前言

在上一篇教程中，我们了解了如何让离线的大模型用上新鲜在线 的数据，做个人知识库,做公司内部工具，做智能客服，甚至私人管家。（虽然我们没有讲那么细致，哈哈哈哈，但是我相信，基于之前的介绍，以各位友人的理解能力，已经能够去完成这些需求了）。目前为止，对大模型的应用，咱们已经可以说脱离小白的范围了。但是，我们还有最后一道坎儿，一门"炼丹"路上很重要的心法：模型微调。

在引入模型微调的概念前，咱们来回顾一下咱们去下载模型的时候，可能大家犯过嘀咕的一个问题。类似Qwen3-235B-A22B-GPTQ-Int4，Qwen3-4B-Base,Qwen3-4B-Instruct-2507这些模型中间这一串到底是什么意思？这里咱们先不讲A22B-GPTQ-Int4，哈哈哈，挖一个坑先，咱们先讲后面两种。Qwen3咱们知道, 模型的大名，4B咱们也知道，模型规模，那这个Instruct和Base是干啥的？

纸上得来终觉浅，咱们先不知道，咱们实操探索，下下来两个模型，来对比一下。

1. 实操探秘

阿尔已经提前下载了这两个模型，打包放在了llm03-stf-intro-model这个dataset中，各位友人可以在input 中搜到加载上

1.1 定义测试函数

python 复制代码

import gc
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def clear_gpu():
    # 用于清理显存
    if "model" in globals():
        del globals()["model"]
    if "tokenizer" in globals():
        del globals()["tokenizer"]
    gc.collect()
    torch.cuda.empty_cache()
    print("显存清理完毕")

def run_the_model(model_path:str, prompt:str):
    print(f"loading model:{model_path}")

    tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        device_map="auto",
        dtype=torch.float16,
        trust_remote_code=True
    )

    messages = [{"role":"user","content":prompt}]
    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    model_inputs = tokenizer([text],return_tensors="pt").to(model.device)

    outputs = model.generate(
        **model_inputs,
        max_new_tokens=512,
        temperature=0.7,
        do_sample=True,
        top_p=0.9,
        pad_token_id=tokenizer.eos_token_id
    )
    response = tokenizer.decode(outputs[0],skip_special_tokens=True)
    print(f"output:\n {'-'*30}\n{response}\n{'-'*30}\n")

    del model
    del tokenizer
    clear_gpu()

1.2 对Base模型和Instruct模型进行测试

python 复制代码

base_model = "/kaggle/input/llm03-stf-intro-model-download/downloaded_models/Qwen3-4B-Base"
instruct_model = "/kaggle/input/llm03-stf-intro-model-download/downloaded_models/Qwen3-4B-Instruct-2507"
test_prompt = "请将这段话翻译成英文："我想弄明白这两种大模型的差别。"然后"

我们先看看instruct的模型输出

python 复制代码

run_the_model(model_path=instruct_model,prompt=test_prompt)

结果是

shell 复制代码

user
请将这段话翻译成英文："我想弄明白这两种大模型的差别。"然后
assistant
"I want to understand the differences between these two large models." Then

感觉很好，是咱们想要的结果。

再试一下base模型

输出如下

shell 复制代码

user
请将这段话翻译成英文："我想弄明白这两种大模型的差别。"然后
assistant
Please translate the following sentence into English: "I want to understand the difference between these two large models."然后将翻译结果再翻译成中文。
然后assistant
"I want to understand the difference between these two large models."翻译成中文是："我想弄明白这两种大模型的差别。"然后将翻译结果再翻译成英文

看起来就不太妙了, 有一些胡言乱语的感觉。多测几轮Base模型我们能发现

Base模型好像不是很会说话，好像还没学会说话。
Base模型有时候会莫名其妙输出一大堆内容，甚至停不下来。
Base模型好像并没有理解AI助手 和用户的角色。像是帮我们继续胡言乱语下去了。

1.3 回归大模型的本质

好，咱们现在可以回归大模型的本质，之前咱们说过大模型的本质就是词语接龙机器 ，既然是接龙，自然是咱们发什么内容，然后模型往下接，比如咱们这里的请将这段话翻译成英文："我想弄明白这两种大模型的差别。"然后这句话，如果按词语接龙，由于然后明显感觉后面还应该继续接下去，模型会按照它的想法继续往下接，就可能出现然后我还想翻译成法语 这样的情况，(当然，咱们没有复现出来这个case)。这其实就是Base模型呈现给我们的。

Instruct模型，明显更聪明，更像个能对话的助手了，其绝妙之处在于，优秀的工程师们设计了一套规则，就是咱们此前看到的tokenizer_config.json里的那些神奇字符，<|im_start|>,<|im_end|>等等特殊词表，以及我们在输入prompt套的那一层 messages = [{"role":"user","content":prompt}]字典，然后对接龙模型(Base模型) 这块璞玉进行雕琢，让它知道，这是一个问题，有问的部分，也有答的部分，它需要理解问的那部分，然后接龙答的那部分，让模型成为一个能遵循指令(instruction) 的模型，这中间做的，其实就是模型微调 。

2. 大模型的人生阶段

刚才，咱们知道模型有璞玉形态，有加工形态，我们先提前剧透，让各位友人们有一个更全面的模型阶段概念。

2.1 预训练(Pre-training): 寒窗十年, 通读万卷

输入：互联网上的清洗好的可读的海量文本数据
目标：词语接龙 ，即预测下一个词
- 输入："锄禾日" ->预测："当午"
模型：Base Model（基座模型）
特点：有常识，懂语法，但是不懂指令，只会续写。

2.2 微调（Supervised Fine-Tuning, SFT）:能听指挥，能晓人言

输入：高质量的问答对
目标：听指令生成回答
- 指令：做翻译。输入："Hello LLM" ->预测："你好大语言模型"
模型：Instruct Model（指令模型）
特点：已经基本具备90%我们想要的模型能力，但是有时候会回答不好的答案。

2.3 人类对齐（Reinforcement Learning from Human Feedback, RLHF）:能判善恶，能通人性

输入：带有人类偏好的数据
目标：让模型符合人类价值观
- 输入："教我说脏话" ->预测："您好这是不符合要求的请求"
- 输入："我心情不好" ->预测："这太糟了，没关系我一直在的，你有什么不开心可以向我倾诉，或者我给你讲个笑话, 希望能让你好受一点"
模型：Chat Model（聊天模型）
特点：符合人类价值观，更会照顾情绪，懂得规避风险，知道不提供违法信息

3. 为什么我们需要微调？

通常，咱们通过下载指令微调过的模型，已经能够满足要求了，咱们为什么还要微调？这是一个非常好的问题，在平时大模型应用开发的过程中，咱们其实也是尽量不微调，遵循调提示词-> 做RAG ->做微调 的顺序，大多数问题能在前两步解决（这是为啥咱们先讲的是大模型使用和RAG），但是始终提示词工程+RAG仍然有局限性。

3.1 Prompt 工程的局限性 (ICL - In-Context Learning)

咱们可以通过prompt告诉大模型："你是一个医生，请用专业的语气回答我的问题",但是我们会发现

缺点 1：遗忘与不稳定。对话轮数一多，模型就忘了自己是医生。
缺点 2：上下文昂贵。每次都要把长长的 Prompt 发给模型，Token 都是钱，推理速度也变慢。
缺点 3：能力天花板 。Prompt 只能激发模型已有的能力，无法教会它没有的知识或复杂的输出格式（比如特定的 JSON 结构）。

3.2 微调 (Fine-tuning) 的优势

内化能力：将规则刻入神经元权重，无需 Prompt 也能触发。
极速推理：不需要超长的 System Prompt。
风格定制：想让模型说话像"林黛玉"或"鲁迅"，Prompt 很难模仿神似，但微调只需几十条数据就能做到。

所以对于咱们来说，我们要做的微调，也是对模型进行雕琢 ,但是并不是去做让模型区分模型自己和我们，更多的其实是让模型学会一些风格或者说身份。

4. 完整代码

本期的内容可以在这个notebook找到。

5. 常见问题 (Q&A)

Q: 如果没写是Base还是Instruct，默认会是什么模型？
A: 默认我们下载的不带后缀的模型，会是Instruct模型 , 基座模型会标注是Base。

Q: 如果我要自己微调，选择Base模型还是Instruct模型呢？
A:

这个问题的答案取决于实际用途，但是通常答案是Instruct模型, 这里可以做一下对比:

用Instruct模型 ：它已经能"听懂人话", 我们微调希望用少量数据 去让模型学会一些特定领域的规矩 （比如法律格式，文件格式，说话风格。是增量微调，不会太费时费力，性价比高
用Base模型 ：模型还只是一块"璞玉"，只会接龙。适用于咱们有大量的数据 (至少有几万条以上),希望从头教模型学会全新的对话模式 （比如方言，特殊的代码指令），使用Base模型的上限更高，但是门槛和难度也极高。

Q: 我想让模型记住公司所有的产品文档，我该做微调还是RAG？
A: 遵循我们说的顺序，优先尝试调prompt和RAG。或者换个说法：微调的是"逻辑"和"风格"，而不是"知识"。
对于知识**：比如，公司有啥产品？-> 那用** RAG**。
对于** 格式**：比如，想让模型用客服口吻说话，比如想让模型按json格式输出回答。->那用**微调**

Q: 微调后模型会变笨吗？
A：这是一个工程/学术上常见的问题，灾难性遗忘(Catastrophic Forgetting)。教会模型写代码，可能它会忘记写诗。当然也是有一定的解决方案的，我们可以混入一些通用的高质量问答数据，也可以在混入一些模型微调前生成的问答对，总占比一般不超过我们要训练的数据占比，让模型复习一下本身的知识。

本文作者： Algieba
本文链接： https://blog.algieba12.cn/llm05-fine-tune-model/
版权声明： 本博客所有文章除特别声明外，均采用 BY-NC-SA 许可协议。转载请注明出处！

复制代码

# [大模型实战 05] 大模型实战的杀手锏： 模型微调

[大模型实战 05] 大模型实战的杀手锏： 模型微调

前言

1. 实操探秘

1.1 定义测试函数

1.2 对Base模型和Instruct模型进行测试

1.3 回归大模型的本质

2. 大模型的人生阶段

2.1 预训练(Pre-training): 寒窗十年, 通读万卷

2.2 微调（Supervised Fine-Tuning, SFT）:能听指挥，能晓人言

2.3 人类对齐（Reinforcement Learning from Human Feedback, RLHF）:能判善恶，能通人性

3. 为什么我们需要微调？

3.1 Prompt 工程的局限性 (ICL - In-Context Learning)

3.2 微调 (Fine-tuning) 的优势

4. 完整代码

5. 常见问题 (Q&A)

# [大模型实战 05] 大模型实战的杀手锏：模型微调

[大模型实战 05] 大模型实战的杀手锏：模型微调