GB/T 45288.2-2025 《人工智能 大模型 第2部分:评测指标与方法》详解

GB/T 45288.2-2025 《人工智能 大模型 第2部分:评测指标与方法》

发布:国家市场监督管理总局 国家标准化管理委员会,2025-02-28 实施


一、核心框架:"2-4-6" 评测体系

该标准采用 "2-4-6" 框架 构建系统化评测体系:

组成 说明
2 类评测视角 理解能力 + 生成能力
4 类评测要素 工具、数据、方法、指标
6 大评测维度 功能性、准确性、可靠性、安全性、交互性、应用性

二、评测指标体系

1. 理解能力评测指标

单模态维度:

二级维度 涵盖能力
文本 文本分类、信息抽取、数学推理、因果推理、常识推理、任务分解、文本问答、多轮对话、代码理解、长文本理解
图像 静态图像分类、静态图像分割、目标检测、动态图像分类、行为识别
音频 声纹识别、音频问答、环境音分类

多模态维度:

二级维度 涵盖能力
图文 图文检索、静态图像问答、视觉空间关系、视觉语言推理、视觉蕴含
文音 文音检索、语音翻译
图音 视频异常检测、有声视频检索
图文音 视频问答、有声视频问答、图表推理

2. 生成能力评测指标

单模态维度:

二级维度 涵盖能力
文本 摘要总结、机器翻译、文本改写、文本扩写、文本续写、代码生成、半结构化数据生成

多模态维度:

二级维度 涵盖能力
图文 文本生成图片、图片生成文本描述
图文音 文本生成视频、视频生成文本描述、文本生成有声视频、有声视频生成文本描述
文音 语音合成、语音识别、语音翻译

三、评测维度详解(6 大维度)

维度 说明
功能性 模型能否完成指定任务
准确性 模型输出的正确程度
可靠性 模型在异常情况下的稳定性
安全性 内容过滤、隐私保护、价值观对齐等
交互性 模型与用户的交互体验
应用性 模型在实际应用场景中的适用性

四、评测方法

方法 适用场景 说明
自动化评测 有明确标准答案的任务(分类、抽取、问答等) 使用准确率、召回率、F1、BLEU、ROUGE 等指标
人工评测 生成类、主观性强的任务(摘要、翻译、图文生成) MOS 平均意见得分,从相关度、完整度等维度打分
大模型裁判评测 开放性问题 使用高能力大模型作为评分器,需引入人工审核机制

五、评测实施要求

  • 评测数据集要求:满足合规性和隐私保护、指标完备、时效性、可用性、多样性和代表性
  • 数据标注流程:符合 GB/T 42755---2023 第6章和第7章要求
  • 数据量要求 :单个能力项不少于 200 条 测试数据
  • 评测执行 :对评测工具执行 3 次,取平均值作为最终结果
  • 评测分级:分为基础能力项和增强能力项,增强能力评测需在通过基础能力评测后进行

六、适用对象

  • 模型提供者:指导大模型设计、开发、优化
  • 应用服务者:评估模型技术水平和服务能力
  • 应用消费者:为选型采购提供评判依据
  • 监管者:为行业监管提供统一参照

七、配套工具与数据集

工具/数据集 用途
LMBench 国家标准评测工具,覆盖主客观评测及多模态能力
MMLU 评测知识广度和推理能力(57个任务,13,062题)
C-Eval 中文理解能力评测(52个学科,13,948题)
TruthfulQA 真实性与抗幻觉评测
FLAMES 价值观对齐评测(2,251个提示,约18.7K响应)
EvalScope / OpenCompass 评测执行平台

八、一句话总结

GB/T 45288.2-2025 为大模型评测提供了 统一的"度量衡",覆盖理解与生成两大能力、六个核心维度,为研发优化、产品选型、应用监管提供了权威、系统、可复现的评测方法论。