一、核心能力类通用评测指标(所有领域通用)
这部分是衡量大模型基础能力的通用标尺,任何领域落地都需要优先评估:
表格
| 指标分类 | 具体指标 | 计算方式 | 适用场景 |
|---|---|---|---|
| 基础准确率 | Accuracy(准确率) | 正确回答数 / 总问题数 | 结构化任务、选择判断题 |
| 语言流畅度 | Perplexity(困惑度,PPL) | 衡量模型预测文本序列的惊讶度,值越低越流畅 | 所有生成类任务 |
| 事实一致性 | Factual Consistency | 检查生成内容与给定参考材料是否一致 | RAG检索增强生成场景 |
| 内容可追溯性 | Attribution / Groundedness | 逐句验证是否对应参考材料中的证据,分为Supported/Contradicted/No Evidence三档 | 企业知识库问答、文献综述生成 |
二、关键能力专项评测指标
1. 推理能力指标
推理能力是大模型解决复杂问题的核心,评测重点关注过程而非仅结果:
- **Chain-of-Thought Correctness(思维链正确率)**:不仅看最终答案,还要验证推理链路每一步是否正确,适用于数学计算、逻辑分析场景。
- **Multi-Step Reasoning Success Rate(多步推理成功率)**:统计需要多步骤推导任务的完成率,适用于流程规划、工具调用场景。
- Tool/Function Calling 成功率:拆分为三个子维度:函数选择正确率、参数格式正确率、参数语义正确率,是智能体应用的核心评测指标。
2. 可控性指标(企业落地必备)
企业场景要求大模型严格遵循约束,可控性指标直接决定落地可用性:
- 指令遵循率:包含格式正确率(JSON/XML/YAML等结构化输出)、输出约束遵守率(长度、风格、语气)、多约束成功率三个子维度。
- **稳定度(Determinism)**:相同Prompt下输出结果的一致性,金融、医疗、法律等高合规领域重点关注。
- **自洽性(Self-Consistency)**:相同问题多次提问,输出结果是否不存在逻辑冲突。
三、特定领域专属评测指标
不同垂直领域对大模型有特殊能力要求,需补充领域专属指标:
金融领域
- 金融合规准确率:输出内容是否符合金融监管要求,是否存在违规推荐、虚假宣传。
- 研报信息准确度:生成研报解读、投资分析时,关键数据(财报、股价、营收)是否准确无误。
- 风险识别召回率:识别欺诈话术、违规内容的覆盖比例。
法律领域
- 法条匹配准确率:对应案件匹配适用法律条文的正确率。
- 文书格式合规率:法律文书(合同、起诉状)的格式是否符合行业规范。
- 量刑建议偏差率:给出的量刑建议参考值与真实判例的偏差范围。
医疗领域
- 诊断符合率:辅助诊断结果与临床确诊结果的一致性。
- 用药推荐安全率:推荐药物是否存在禁忌症、剂量错误等安全问题。
- 医学文献依从性:生成内容是否符合最新临床指南与循证医学结论。
代码领域
- 可运行通过率:生成代码在标准测试用例下的运行通过率(HumanEval/MBPP数据集常用)。
- 代码注释完整率:生成代码是否包含清晰规范的注释说明。
- 依赖兼容性:生成代码是否存在依赖冲突、版本不兼容问题。
四、生产落地附加评测指标
完成基础能力和领域能力评测后,还需要评估生产环境的可用性:
- 性能指标:首屏响应时间(TTFT)、完整输出耗时、单请求Token消耗量,直接影响用户体验和服务成本。
- 安全合规指标:有害内容拦截率(有毒、暴力、违法内容)、敏感信息泄露率(检测模型是否会输出训练数据中的隐私内容)、数据漂移监测(生产环境输入分布变化后模型性能衰减速度)。
- 用户体验指标:多轮对话上下文一致性、解决用户问题的最终成功率,可通过A/B测试结合用户反馈收集。
五、可直接落地的评测工具推荐
目前行业最成熟的开源评测平台是OpenCompass 2.0,支持快速开展特定领域评测:
- 已内置法律、金融等垂直领域的评测基准,覆盖安全评估+主客观评测全流程。
- 支持分布式高效评测,兼容HuggingFace开源模型与主流API模型,提供CompassRank中立榜单和CompassKit全栈工具链,可直接基于现有框架扩展你的领域专属评测任务。