大模型分类测评指标清单

科技林总2026-06-13 15:19

一、核心能力类通用评测指标（所有领域通用）

这部分是衡量大模型基础能力的通用标尺，任何领域落地都需要优先评估：

表格

指标分类	具体指标	计算方式	适用场景
‌基础准确率‌	Accuracy（准确率）	正确回答数 / 总问题数	结构化任务、选择判断题
‌语言流畅度‌	Perplexity（困惑度，PPL）	衡量模型预测文本序列的惊讶度，值越低越流畅	所有生成类任务
‌事实一致性‌	Factual Consistency	检查生成内容与给定参考材料是否一致	RAG检索增强生成场景
‌内容可追溯性‌	Attribution / Groundedness	逐句验证是否对应参考材料中的证据，分为Supported/Contradicted/No Evidence三档	企业知识库问答、文献综述生成

二、关键能力专项评测指标

1. 推理能力指标

推理能力是大模型解决复杂问题的核心，评测重点关注过程而非仅结果：

‌**Chain-of-Thought Correctness（思维链正确率）**‌：不仅看最终答案，还要验证推理链路每一步是否正确，适用于数学计算、逻辑分析场景。
‌**Multi-Step Reasoning Success Rate（多步推理成功率）**‌：统计需要多步骤推导任务的完成率，适用于流程规划、工具调用场景。
‌Tool/Function Calling 成功率‌：拆分为三个子维度：函数选择正确率、参数格式正确率、参数语义正确率，是智能体应用的核心评测指标。

2. 可控性指标（企业落地必备）

企业场景要求大模型严格遵循约束，可控性指标直接决定落地可用性：

‌指令遵循率‌：包含格式正确率（JSON/XML/YAML等结构化输出）、输出约束遵守率（长度、风格、语气）、多约束成功率三个子维度。
‌**稳定度（Determinism）**‌：相同Prompt下输出结果的一致性，金融、医疗、法律等高合规领域重点关注。
‌**自洽性（Self-Consistency）**‌：相同问题多次提问，输出结果是否不存在逻辑冲突。

三、特定领域专属评测指标

不同垂直领域对大模型有特殊能力要求，需补充领域专属指标：

金融领域

金融合规准确率：输出内容是否符合金融监管要求，是否存在违规推荐、虚假宣传。
研报信息准确度：生成研报解读、投资分析时，关键数据（财报、股价、营收）是否准确无误。
风险识别召回率：识别欺诈话术、违规内容的覆盖比例。

法律领域

法条匹配准确率：对应案件匹配适用法律条文的正确率。
文书格式合规率：法律文书（合同、起诉状）的格式是否符合行业规范。
量刑建议偏差率：给出的量刑建议参考值与真实判例的偏差范围。

医疗领域

诊断符合率：辅助诊断结果与临床确诊结果的一致性。
用药推荐安全率：推荐药物是否存在禁忌症、剂量错误等安全问题。
医学文献依从性：生成内容是否符合最新临床指南与循证医学结论。

代码领域

可运行通过率：生成代码在标准测试用例下的运行通过率（HumanEval/MBPP数据集常用）。
代码注释完整率：生成代码是否包含清晰规范的注释说明。
依赖兼容性：生成代码是否存在依赖冲突、版本不兼容问题。

四、生产落地附加评测指标

完成基础能力和领域能力评测后，还需要评估生产环境的可用性：

‌性能指标‌：首屏响应时间（TTFT）、完整输出耗时、单请求Token消耗量，直接影响用户体验和服务成本。
‌安全合规指标‌：有害内容拦截率（有毒、暴力、违法内容）、敏感信息泄露率（检测模型是否会输出训练数据中的隐私内容）、数据漂移监测（生产环境输入分布变化后模型性能衰减速度）。
‌用户体验指标‌：多轮对话上下文一致性、解决用户问题的最终成功率，可通过A/B测试结合用户反馈收集。

五、可直接落地的评测工具推荐

目前行业最成熟的开源评测平台是‌OpenCompass 2.0‌，支持快速开展特定领域评测：

已内置法律、金融等垂直领域的评测基准，覆盖安全评估+主客观评测全流程。
支持分布式高效评测，兼容HuggingFace开源模型与主流API模型，提供CompassRank中立榜单和CompassKit全栈工具链，可直接基于现有框架扩展你的领域专属评测任务。

上一篇：从零开始搭建 Obsidian 知识库

下一篇：我让 Claude Code 修一个 Bug，它却重构了半个项目

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新