大模型分类测评指标清单

一、核心能力类通用评测指标(所有领域通用)

这部分是衡量大模型基础能力的通用标尺,任何领域落地都需要优先评估:

表格

指标分类 具体指标 计算方式 适用场景
基础准确率 Accuracy(准确率) 正确回答数 / 总问题数 结构化任务、选择判断题
语言流畅度 Perplexity(困惑度,PPL) 衡量模型预测文本序列的惊讶度,值越低越流畅 所有生成类任务
事实一致性 Factual Consistency 检查生成内容与给定参考材料是否一致 RAG检索增强生成场景
内容可追溯性 Attribution / Groundedness 逐句验证是否对应参考材料中的证据,分为Supported/Contradicted/No Evidence三档 企业知识库问答、文献综述生成

二、关键能力专项评测指标

1. 推理能力指标

推理能力是大模型解决复杂问题的核心,评测重点关注过程而非仅结果:

  • ‌**Chain-of-Thought Correctness(思维链正确率)**‌:不仅看最终答案,还要验证推理链路每一步是否正确,适用于数学计算、逻辑分析场景。
  • ‌**Multi-Step Reasoning Success Rate(多步推理成功率)**‌:统计需要多步骤推导任务的完成率,适用于流程规划、工具调用场景。
  • Tool/Function Calling 成功率‌:拆分为三个子维度:函数选择正确率、参数格式正确率、参数语义正确率,是智能体应用的核心评测指标。
2. 可控性指标(企业落地必备)

企业场景要求大模型严格遵循约束,可控性指标直接决定落地可用性:

  • 指令遵循率‌:包含格式正确率(JSON/XML/YAML等结构化输出)、输出约束遵守率(长度、风格、语气)、多约束成功率三个子维度。
  • ‌**稳定度(Determinism)**‌:相同Prompt下输出结果的一致性,金融、医疗、法律等高合规领域重点关注。
  • ‌**自洽性(Self-Consistency)**‌:相同问题多次提问,输出结果是否不存在逻辑冲突。

三、特定领域专属评测指标

不同垂直领域对大模型有特殊能力要求,需补充领域专属指标:

金融领域
  • 金融合规准确率:输出内容是否符合金融监管要求,是否存在违规推荐、虚假宣传。
  • 研报信息准确度:生成研报解读、投资分析时,关键数据(财报、股价、营收)是否准确无误。
  • 风险识别召回率:识别欺诈话术、违规内容的覆盖比例。
法律领域
  • 法条匹配准确率:对应案件匹配适用法律条文的正确率。
  • 文书格式合规率:法律文书(合同、起诉状)的格式是否符合行业规范。
  • 量刑建议偏差率:给出的量刑建议参考值与真实判例的偏差范围。
医疗领域
  • 诊断符合率:辅助诊断结果与临床确诊结果的一致性。
  • 用药推荐安全率:推荐药物是否存在禁忌症、剂量错误等安全问题。
  • 医学文献依从性:生成内容是否符合最新临床指南与循证医学结论。
代码领域
  • 可运行通过率:生成代码在标准测试用例下的运行通过率(HumanEval/MBPP数据集常用)。
  • 代码注释完整率:生成代码是否包含清晰规范的注释说明。
  • 依赖兼容性:生成代码是否存在依赖冲突、版本不兼容问题。

四、生产落地附加评测指标

完成基础能力和领域能力评测后,还需要评估生产环境的可用性:

  1. 性能指标‌:首屏响应时间(TTFT)、完整输出耗时、单请求Token消耗量,直接影响用户体验和服务成本。
  2. 安全合规指标‌:有害内容拦截率(有毒、暴力、违法内容)、敏感信息泄露率(检测模型是否会输出训练数据中的隐私内容)、数据漂移监测(生产环境输入分布变化后模型性能衰减速度)。
  3. 用户体验指标‌:多轮对话上下文一致性、解决用户问题的最终成功率,可通过A/B测试结合用户反馈收集。

五、可直接落地的评测工具推荐

目前行业最成熟的开源评测平台是‌OpenCompass 2.0‌,支持快速开展特定领域评测:

  • 已内置法律、金融等垂直领域的评测基准,覆盖安全评估+主客观评测全流程。
  • 支持分布式高效评测,兼容HuggingFace开源模型与主流API模型,提供CompassRank中立榜单和CompassKit全栈工具链,可直接基于现有框架扩展你的领域专属评测任务。
相关推荐
世间一点尘1 小时前
我让 Claude Code 修一个 Bug,它却重构了半个项目
人工智能
为码消得人憔悴1 小时前
从零开始搭建 Obsidian 知识库
人工智能·aigc·agent
EMA1 小时前
MaxKB 技术解析文档
人工智能
湘美书院--湘美谈教育1 小时前
湘美谈教育AI赋能系列经验集锦:学好唐诗宋词的点滴心得体会
大数据·人工智能·深度学习·神经网络·机器学习
迦蓝叶1 小时前
【开源自荐】JAiRouter:一个轻量级 AI 模型服务网关的开源实践
java·人工智能·spring·开源·llm-gateway·mass
Java知识技术分享2 小时前
opencode安装ui-ux-pro-max和frontend-ui-ux技能
人工智能·ui·个人开发·ai编程·ux
苏映视官方账号2 小时前
精品案例丨方寸之间,“微” 毫毕现 —— 圆刀机高精度检测工艺优化实例
人工智能·数码相机·视觉检测·制造
Cloud_Shy6182 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第六章 Item 40 - 43)
android·开发语言·人工智能·笔记·python·学习方法
Sammyyyyy2 小时前
月之暗面 Kimi Code 0.4.0 发布,终端 AI 编码助手全面采用 TypeScript,实现毫秒级启动
前端·javascript·人工智能·ai·typescript·servbay