大模型评估指标

大模型各阶段指标对应关系(明确:偏好对齐指标仅微调后有)

核心结论

偏好对齐类指标(WinRate、人类偏好分、拒绝率等)并非原生自带,仅在经过 SFT、DPO 微调后才会出现、才需要评估;预训练原生底座无此类指标,测之无意义。

一、预训练底座(无微调,原生状态)

核心能力

仅具备基础语言、知识能力,不会跟随指令、不懂人类偏好,仅能完成基础续写。

唯一需测指标(无偏好对齐相关)

  1. 基础生成质量:Perplexity(PPL,困惑度)、Repetition Rate(重复率)
  2. 文本匹配:BLEU、ROUGE-L、BERTScore
  3. 基础能力:知识覆盖率、基础逻辑推理正确率、语言流畅度

二、SFT 有监督微调后(首次对齐人类指令)

核心能力

学会跟随指令、按问答格式输出,初步贴合人类对话习惯,摆脱原生续写模式。

新增需测指标(初步偏好相关,非核心)

  1. 指令对齐:指令跟随率、约束遵守率(格式、字数等)
  2. 基础偏好:回答流畅自然度、对话连贯性、基础回答质量(不啰嗦、不跑偏)
  3. 保留基础指标:延续预训练阶段所有基础指标(验证能力无丢失)

三、DPO 偏好对齐微调后(重点优化人类偏好)

核心能力

明确区分回答好坏、贴合人类偏好,具备安全边界、减少幻觉,优化话术分寸。

新增专属偏好对齐指标(核心重点)

  1. 偏好对比:WinRate(对局胜率,DPO vs SFT)、人类偏好分
  2. 安全对齐:拒绝率(违规请求)、幻觉率、Toxicity(有害内容毒性值)
  3. 话术优化:简洁度、冗余度、回答一致性(同问题不矛盾)
  4. 保留指标:延续 SFT 阶段所有指标(验证指令能力无丢失)

四、各阶段指标对比表

模型阶段 核心能力 重点评估指标 有无偏好对齐指标
预训练底座 基础语言、知识续写 PPL、BLEU、ROUGE、知识覆盖率、基础推理
SFT 微调 指令跟随、基础对话 指令跟随率、流畅度、连贯性、基础指标 有(初步,非核心)
DPO 微调 偏好对齐、安全合规 WinRate、人类偏好分、拒绝率、幻觉率、简洁度 有(核心,专属)

补充说明

  1. 偏好对齐指标的核心是「贴合人类需求」,原生底座无此训练目标,因此无对应能力、无需评估;
  2. SFT 是偏好对齐的基础(让模型"听话"),DPO 是偏好对齐的核心(让模型"好听、安全");
  3. 评估逻辑:从底座→SFT→DPO,逐步新增偏好、安全类指标,同时验证基础能力不丢失。
相关推荐
CCC:CarCrazeCurator1 小时前
大模型核心注意力机制技术深度报告:MHA、MQA、GQA 与 MLA 技术原理、性能对比与场景适配
人工智能·机器学习·自动驾驶·transformer
DisonTangor21 小时前
谷歌开源首个扩散大语言模型——DiffusionGemma
人工智能·语言模型·自然语言处理·开源·aigc·transformer
AndrewHZ1 天前
【LLM技术全景】开源大模型生态:如何选择适合你的基座模型?
人工智能·深度学习·语言模型·开源·llm·transformer·基座模型
机器学习之心1 天前
扩散模型数据增强 + Transformer-LSTM 回归预测:小样本场景下的工业级解决方案
回归·lstm·transformer·扩散模型
谷哥的小弟1 天前
大模型核心基础知识(18)—Transformer模型的提出背景
人工智能·深度学习·神经网络·大模型·transformer·大语言模型
盼小辉丶1 天前
视觉Transformer实战 | Twins空间注意力机制详解与实现
深度学习·计算机视觉·transformer
吴佳浩 Alben2 天前
Hermes vs OpenClaw:基于源码的 Agent Loop 全面分析
人工智能·ai·transformer
装不满的克莱因瓶2 天前
掌握多头自注意力机制(Multi-Head Self-Attention)——Transformer 强大表达能力的核心来源
人工智能·python·深度学习·数学·ai·transformer
高洁012 天前
知识图谱与推荐系统实战
深度学习·机器学习·transformer·virtualenv·知识图谱
啦啦啦_99993 天前
4. Transformer_4_输出部分
人工智能·深度学习·transformer