大模型评估指标

Forrit2026-05-16 16:49

大模型各阶段指标对应关系（明确：偏好对齐指标仅微调后有）

核心结论

偏好对齐类指标（WinRate、人类偏好分、拒绝率等）并非原生自带，仅在经过 SFT、DPO 微调后才会出现、才需要评估；预训练原生底座无此类指标，测之无意义。

一、预训练底座（无微调，原生状态）

核心能力

仅具备基础语言、知识能力，不会跟随指令、不懂人类偏好，仅能完成基础续写。

唯一需测指标（无偏好对齐相关）

基础生成质量：Perplexity（PPL，困惑度）、Repetition Rate（重复率）
文本匹配：BLEU、ROUGE-L、BERTScore
基础能力：知识覆盖率、基础逻辑推理正确率、语言流畅度

二、SFT 有监督微调后（首次对齐人类指令）

核心能力

学会跟随指令、按问答格式输出，初步贴合人类对话习惯，摆脱原生续写模式。

新增需测指标（初步偏好相关，非核心）

指令对齐：指令跟随率、约束遵守率（格式、字数等）
基础偏好：回答流畅自然度、对话连贯性、基础回答质量（不啰嗦、不跑偏）
保留基础指标：延续预训练阶段所有基础指标（验证能力无丢失）

三、DPO 偏好对齐微调后（重点优化人类偏好）

核心能力

明确区分回答好坏、贴合人类偏好，具备安全边界、减少幻觉，优化话术分寸。

新增专属偏好对齐指标（核心重点）

偏好对比：WinRate（对局胜率，DPO vs SFT）、人类偏好分
安全对齐：拒绝率（违规请求）、幻觉率、Toxicity（有害内容毒性值）
话术优化：简洁度、冗余度、回答一致性（同问题不矛盾）
保留指标：延续 SFT 阶段所有指标（验证指令能力无丢失）

四、各阶段指标对比表

模型阶段	核心能力	重点评估指标	有无偏好对齐指标
预训练底座	基础语言、知识续写	PPL、BLEU、ROUGE、知识覆盖率、基础推理	无
SFT 微调	指令跟随、基础对话	指令跟随率、流畅度、连贯性、基础指标	有（初步，非核心）
DPO 微调	偏好对齐、安全合规	WinRate、人类偏好分、拒绝率、幻觉率、简洁度	有（核心，专属）

补充说明

偏好对齐指标的核心是「贴合人类需求」，原生底座无此训练目标，因此无对应能力、无需评估；
SFT 是偏好对齐的基础（让模型"听话"），DPO 是偏好对齐的核心（让模型"好听、安全"）；
评估逻辑：从底座→SFT→DPO，逐步新增偏好、安全类指标，同时验证基础能力不丢失。

上一篇：第十四篇：《JMeter插件扩展：自定义函数与第三方插件》

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03【AI】2026 年具身智能模型和世界模型总结 04CC-Switch & Claude 基于 Linux 服务器安装使用指南 05人工智能最新动态 AI 日报 · 2026年5月10日 06Gemini大升级、AI眼镜首发、Android XR亮相，13天后见分晓 07AI科技热点日报 | 2026年5月11日 08零基础教你claude code 接入 deepseek V4 09裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 10Codex 手机端连接教程：三分钟搞定，附完整步骤