LLM和Agent两者的评估维度有重叠但侧重点差异显著 ------ 大模型侧重基础语言与认知能力,Agent 侧重复杂任务的闭环执行能力。
但核心都是能力匹配度、可靠性、实用性三个核心目标
大模型质量评估标准 分为基础能力指标 和工程化指标
基础能力指标: 这是大模型的核心竞争力,决定其 "能不能用"。
①语言理解能力
评估维度:指令遵循度、语义相似度匹配、歧义消解能力、多语言支持度。
评估方法:通过标准化数据集(如 GLUE、SuperGLUE)测试分类、匹配等任务准确率;
人工构造模糊指令(如 "帮我查一下苹果的最新产品,不是手机")测试理解精度。
②内容生成能力
评估维度:生成文本的流畅度、逻辑性、相关性、多样性、原创性。
评估方法:
自动指标:BLEU(机器翻译)、ROUGE(文本摘要)、Perplexity(语言模型困惑度,值越低越好);
人工指标:评分员从 "通顺度、贴合需求、无废话" 三个维度打分。
③逻辑推理能力
评估维度:数学计算(GSM8K 数据集)、常识推理(HellaSwag)、因果推理、
多步推理(如 "已知 A>B,B>C,判断 A 和 C 的关系")。
核心标准:推理步骤的可解释性,而非仅看结果正确。
④知识准确性
评估维度:事实性错误率、知识时效性、领域知识深度(如医疗 / 法律领域的专业术语使用)。
评估方法:对比权威知识库(如维基百科),统计生成内容的事实错误数量;
测试对近期事件(如 3 个月内的科技新闻)的认知程度。
工程化指标 决定大模型 "好不好用、能不能落地"。
①安全性
评估维度:有害内容生成率(暴力、歧视、谣言)、prompt 注入抵御能力、
隐私保护能力(是否泄露训练数据中的敏感信息)。
核心标准:通过 Red Teaming(红队测试) 模拟恶意攻击,测试模型的防御边界。
②效率与成本
评估维度:推理速度(tokens/s)、显存占用、单轮对话成本(按 token 计费)、并发支持能力。
核心标准:在满足效果的前提下,推理延迟是否符合应用场景要求(如实时对话需 <500ms)。
③鲁棒性
评估维度:对输入噪声的容忍度(如错别字、乱码、超长文本)、
极端指令的处理能力(如 "写一篇 10 万字的论文")。
核心标准:不会因输入异常导致崩溃或生成无意义内容。
④可扩展性
评估维度:是否支持微调(Fine-tuning)、提示工程(Prompt Engineering)适配下游任务,
是否兼容插件 / 工具调用。
Agent 质量评估标准
Agent 是大模型 + 工具 + 记忆 + 规划的综合体,其核心价值是完成复杂任务,因此评估重点从 "模型能力" 转向 "任务执行能力"。 通常分为 核心任务能力指标 和 辅助评估指标
核心任务能力指标
①任务完成率
这是 Agent 的第一核心指标。
评估维度:能否在无人工干预下,完整完成端到端任务(如 "帮我查明天北京的天气,预订合适的机票,再推荐附近的酒店")。
细分标准:任务拆解合理性(是否拆分为 "查天气→选机票→订酒店" 子任务)、子任务执行顺序正确性。
②工具调用能力
Agent 的核心优势是连接外部工具,这一维度决定其 "能做多少事"。
评估维度:工具选择准确率(如查天气不会调用计算器)、
参数填充正确性(如传入正确的城市和日期)、
工具调用失败的容错能力(如接口报错后是否重试或切换工具)。
评估方法:构造需要多工具协作的任务(如 "用计算器算 100*20,再用地图查距离最近的超市"),
统计工具调用的精准度。
③记忆与上下文管理能力
决定 Agent 的 "多轮交互体验"。
评估维度:短期记忆(多轮对话中是否记住用户偏好,如 "我不吃辣")、
长期记忆(跨会话是否能保存用户信息)、
记忆内容的精准调用(不会混淆不同用户的需求)。
④自主规划与决策能力
区别于大模型 "被动响应" 的核心特征。
评估维度:面对模糊需求时的主动追问能力(如用户说 "帮我安排旅行",Agent 是否会问 "目的地、时间、预算")、
意外情况的决策能力(如机票售罄后是否推荐替代方案)。
辅助评估指标
①用户体验
评估维度:交互自然度(是否像人类对话)、响应速度、操作门槛(是否需要复杂指令)。
②可靠性
评估维度:任务执行的一致性(同一需求多次执行结果是否稳定)、错误修复能力(用户指出错误后是否能修正)。
③资源消耗
评估维度:工具调用次数(避免无效调用增加成本)、大模型推理次数(是否能通过记忆减少重复推理)。
通用评估方法:
自动评估:基于标准化数据集(如 MMLU 评估大模型综合能力)、指标计算(BLEU、任务完成率),优势是高效、可量化,适合初步筛选。
人工评估:由专业标注员或用户从 "效果、体验、合理性" 打分,优势是贴近真实场景,适合评估生成内容的质量和 Agent 的交互体验。
人机对比评估:对比 Agent / 大模型与人类执行同一任务的效果,核心看 "差距有多大",适合关键场景的验收测试。
A/B 测试:在真实应用场景中,对比不同模型 / Agent 版本的表现(如转化率、用户满意度),是落地前的核心验证手段。
大模型质量评估列表
(一)基础认知与语言能力
★指令遵循度:准确率≥90%
★生成内容质量:流畅性、逻辑性(人工评分≥4分/15分制);困惑度(Perplexity)≤30
逻辑推理能力:数学推理(GSM8K准确率≥70%)、常识推理(HellaSwag准确率≥80%)
知识准确性:事实错误率≤5%,无幻觉;支持多模态理解(文本、图片、语音、视频)
多语言支持:中英文并重,适配国际化需求
(二)工程化与实用性
★推理速度:实时对话延迟≤500ms;批量生成≥20 tokens/s
★鲁棒性:异常输入(错别字、乱码、超长文本)处理成功率≥90%
可扩展性:支持主流微调框架;可对接3种以上常用插件
推理成本:单轮对话成本≤预设阈值(如0.01元/轮)
(三)安全性与伦理
★有害内容防控:有害内容生成率≤1%,通过红队测试验证
隐私保护:无训练数据敏感信息泄露,抵御提示词攻击
公平性:不同群体表现差异(Disparate Impact)≤10%,无刻板印象
合规性:覆盖16项核心安全风险指标(内容安全、指令安全)
(四)专项领域能力
教育领域:适配K12多学科知识测评,支持智能备课、个性化学习路径规划
科研领域:覆盖物理、化学等6大科学领域,支持文献分析、假设生成、数据分析
Agent质量评估列表
(一)核心任务执行能力
★任务完成率:无人工干预下端到端任务完成率≥85%
★任务拆解合理性:拆解准确率≥95%,子任务顺序正确
自主规划与追问:模糊需求追问率≥100%,子任务顺序正确率≥90%
异常处理能力:意外场景(接口报错、资源售罄)恢复率≥90%
常识与领域背景适配性:具备隐含假设推理能力,适配真实场景常识需求
(二)工具与记忆管理能力
★工具调用准确率:工具选择正确率≥99%,参数填充正确率≥98%
短期记忆能力:多轮对话关键信息召回率≥95%
长期记忆能力:跨会话关键信息召回率≥85%
工具容错能力:支持接口报错重试、替代工具切换
(三)用户体验与可靠性
★交互自然度:人工评分≥4分(15分制),贴近人类交流模式
响应时效性:普通任务≤2s,复杂任务≤5s
输出一致性:同类任务偏差率≤3%
社交协作能力:支持多Agent间有效交互,准确响应协作需求
(四)资源与成本控制
工具调用效率:无无效工具调用,控制调用次数
推理资源优化:通过记忆机制减少重复推理,降低资源消耗