大模型评估指标

大模型各阶段指标对应关系(明确:偏好对齐指标仅微调后有)

核心结论

偏好对齐类指标(WinRate、人类偏好分、拒绝率等)并非原生自带,仅在经过 SFT、DPO 微调后才会出现、才需要评估;预训练原生底座无此类指标,测之无意义。

一、预训练底座(无微调,原生状态)

核心能力

仅具备基础语言、知识能力,不会跟随指令、不懂人类偏好,仅能完成基础续写。

唯一需测指标(无偏好对齐相关)

  1. 基础生成质量:Perplexity(PPL,困惑度)、Repetition Rate(重复率)
  2. 文本匹配:BLEU、ROUGE-L、BERTScore
  3. 基础能力:知识覆盖率、基础逻辑推理正确率、语言流畅度

二、SFT 有监督微调后(首次对齐人类指令)

核心能力

学会跟随指令、按问答格式输出,初步贴合人类对话习惯,摆脱原生续写模式。

新增需测指标(初步偏好相关,非核心)

  1. 指令对齐:指令跟随率、约束遵守率(格式、字数等)
  2. 基础偏好:回答流畅自然度、对话连贯性、基础回答质量(不啰嗦、不跑偏)
  3. 保留基础指标:延续预训练阶段所有基础指标(验证能力无丢失)

三、DPO 偏好对齐微调后(重点优化人类偏好)

核心能力

明确区分回答好坏、贴合人类偏好,具备安全边界、减少幻觉,优化话术分寸。

新增专属偏好对齐指标(核心重点)

  1. 偏好对比:WinRate(对局胜率,DPO vs SFT)、人类偏好分
  2. 安全对齐:拒绝率(违规请求)、幻觉率、Toxicity(有害内容毒性值)
  3. 话术优化:简洁度、冗余度、回答一致性(同问题不矛盾)
  4. 保留指标:延续 SFT 阶段所有指标(验证指令能力无丢失)

四、各阶段指标对比表

模型阶段 核心能力 重点评估指标 有无偏好对齐指标
预训练底座 基础语言、知识续写 PPL、BLEU、ROUGE、知识覆盖率、基础推理
SFT 微调 指令跟随、基础对话 指令跟随率、流畅度、连贯性、基础指标 有(初步,非核心)
DPO 微调 偏好对齐、安全合规 WinRate、人类偏好分、拒绝率、幻觉率、简洁度 有(核心,专属)

补充说明

  1. 偏好对齐指标的核心是「贴合人类需求」,原生底座无此训练目标,因此无对应能力、无需评估;
  2. SFT 是偏好对齐的基础(让模型"听话"),DPO 是偏好对齐的核心(让模型"好听、安全");
  3. 评估逻辑:从底座→SFT→DPO,逐步新增偏好、安全类指标,同时验证基础能力不丢失。
相关推荐
Forrit2 小时前
多智能体 执行-辩论-校验 闭环架构
transformer
z小猫不吃鱼3 小时前
01 为什么 Vision Transformer 会出现?从 CNN 到 ViT,理解视觉模型的一次重要转变
深度学习·cnn·transformer
Hali_Botebie5 小时前
【量化】FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer
人工智能·深度学习·transformer
摇落露为霜5 小时前
论文笔记DiT:Scalable Diffusion Models with Transformers(含transformer的可扩展扩散模型 )
人工智能·深度学习·transformer·扩散模型·dit
数智工坊10 小时前
【BLIP论文阅读】:统一视觉语言理解与生成的自举式预训练范式
论文阅读·人工智能·深度学习·算法·transformer
Forrit1 天前
Agent 回退机制
transformer
HSunR1 天前
神经网络 从函数到transformer学习笔记
神经网络·学习·transformer
沪漂阿龙1 天前
面试题:Transformer 模型详解——核心创新、编码器解码器结构、位置编码、因果掩码与大模型基础全解析
人工智能·深度学习·transformer
时空无限1 天前
transformer自注意力机制的核心理解
人工智能·深度学习·transformer