大模型各阶段指标对应关系(明确:偏好对齐指标仅微调后有)
核心结论
偏好对齐类指标(WinRate、人类偏好分、拒绝率等)并非原生自带,仅在经过 SFT、DPO 微调后才会出现、才需要评估;预训练原生底座无此类指标,测之无意义。
一、预训练底座(无微调,原生状态)
核心能力
仅具备基础语言、知识能力,不会跟随指令、不懂人类偏好,仅能完成基础续写。
唯一需测指标(无偏好对齐相关)
- 基础生成质量:Perplexity(PPL,困惑度)、Repetition Rate(重复率)
- 文本匹配:BLEU、ROUGE-L、BERTScore
- 基础能力:知识覆盖率、基础逻辑推理正确率、语言流畅度
二、SFT 有监督微调后(首次对齐人类指令)
核心能力
学会跟随指令、按问答格式输出,初步贴合人类对话习惯,摆脱原生续写模式。
新增需测指标(初步偏好相关,非核心)
- 指令对齐:指令跟随率、约束遵守率(格式、字数等)
- 基础偏好:回答流畅自然度、对话连贯性、基础回答质量(不啰嗦、不跑偏)
- 保留基础指标:延续预训练阶段所有基础指标(验证能力无丢失)
三、DPO 偏好对齐微调后(重点优化人类偏好)
核心能力
明确区分回答好坏、贴合人类偏好,具备安全边界、减少幻觉,优化话术分寸。
新增专属偏好对齐指标(核心重点)
- 偏好对比:WinRate(对局胜率,DPO vs SFT)、人类偏好分
- 安全对齐:拒绝率(违规请求)、幻觉率、Toxicity(有害内容毒性值)
- 话术优化:简洁度、冗余度、回答一致性(同问题不矛盾)
- 保留指标:延续 SFT 阶段所有指标(验证指令能力无丢失)
四、各阶段指标对比表
| 模型阶段 | 核心能力 | 重点评估指标 | 有无偏好对齐指标 |
|---|---|---|---|
| 预训练底座 | 基础语言、知识续写 | PPL、BLEU、ROUGE、知识覆盖率、基础推理 | 无 |
| SFT 微调 | 指令跟随、基础对话 | 指令跟随率、流畅度、连贯性、基础指标 | 有(初步,非核心) |
| DPO 微调 | 偏好对齐、安全合规 | WinRate、人类偏好分、拒绝率、幻觉率、简洁度 | 有(核心,专属) |
补充说明
- 偏好对齐指标的核心是「贴合人类需求」,原生底座无此训练目标,因此无对应能力、无需评估;
- SFT 是偏好对齐的基础(让模型"听话"),DPO 是偏好对齐的核心(让模型"好听、安全");
- 评估逻辑:从底座→SFT→DPO,逐步新增偏好、安全类指标,同时验证基础能力不丢失。