大语言模型的后训练与“灾难性遗忘”问题——李宏毅2025大模型第六讲笔记

当你看到这样一个新闻：

"A 实验室/公司喜报：A使用某开源基座模型Q，经过后训练得到模型Q'，Q'在数学编程领域的得分超过Q。"

请思考这样的模型会有什么问题，Q'真的超过了Q吗？学习本节课，你将得到答案

[1. 经典经验回放](#1. 经典经验回放)

[2. 伪经验回放](#2. 伪经验回放)

[3. Self-Output 系列方法](#3. Self-Output 系列方法)

[4. 巧妙的解法：过滤高难度Token](#4. 巧妙的解法：过滤高难度Token)

后训练目标：将通用的"基础模型"变成特定任务或领域的"专才模型"。（如把Llama后训练后，变成金融、法律领域的专有模型）

后训练仍然沿用现有的模型训练范式：

"手术成功，但病人死亡"------模型学会了特定的新东西，但是原有的通用知识记忆严重衰退，甚至完全丧失原有能力。

1、学中文，忘安全

* 基座模型：LLaMA-2-Chat只用英文回答问题，问它危险问题LLaMA-2会拒绝回答

* 用中文后训练之后：LLaMA-2会用中文回答问题，但安全对齐被破坏，开始回答危险问题。

2、即使用无害数据微调，模型的安全能力也会下降。[1]

3、专才代价是通才能力下降

* 提升某一能力（如编程），其他能力（如数学、语文）下降。

4、学新模态，忘旧格式

那么为什么模型会发生灾难性遗忘？原因如下

目前商业开源大模型的训练资料不可取，那就让模型自己生成旧任务数据，作为回放材料。

人类写的数据，总有一些词汇是模型输出的过程中，模型很难学到的（如截图）。那么在训练中忽略模型最难预测的Token，避免强制教学。可提升泛化能力，减少遗忘。[3]

1\][Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!](https://arxiv.org/abs/2310.03693 "Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!") \[2\][I Learn Better If You Speak My Language](https://arxiv.org/abs/2402.11192 "I Learn Better If You Speak My Language") \[3\][https://arxiv.org/abs/2501.14](https://arxiv.org/abs/2501.14 "https://arxiv.org/abs/2501.14")