如何评估LLM和Agent质量

LLM和Agent两者的评估维度有重叠但侧重点差异显著 ------ 大模型侧重基础语言与认知能力，Agent 侧重复杂任务的闭环执行能力。

但核心都是能力匹配度、可靠性、实用性三个核心目标

大模型质量评估标准 分为基础能力指标 和工程化指标

基础能力指标: 这是大模型的核心竞争力，决定其 "能不能用"。

①语言理解能力

复制代码

评估维度：指令遵循度、语义相似度匹配、歧义消解能力、多语言支持度。
评估方法：通过标准化数据集（如 GLUE、SuperGLUE）测试分类、匹配等任务准确率；
人工构造模糊指令（如 "帮我查一下苹果的最新产品，不是手机"）测试理解精度。

②内容生成能力

复制代码

评估维度：生成文本的流畅度、逻辑性、相关性、多样性、原创性。
评估方法：
自动指标：BLEU（机器翻译）、ROUGE（文本摘要）、Perplexity（语言模型困惑度，值越低越好）；
人工指标：评分员从 "通顺度、贴合需求、无废话" 三个维度打分。

③逻辑推理能力

复制代码

评估维度：数学计算（GSM8K 数据集）、常识推理（HellaSwag）、因果推理、
		多步推理（如 "已知 A>B，B>C，判断 A 和 C 的关系"）。
核心标准：推理步骤的可解释性，而非仅看结果正确。

④知识准确性

复制代码

评估维度：事实性错误率、知识时效性、领域知识深度（如医疗 / 法律领域的专业术语使用）。
评估方法：对比权威知识库（如维基百科），统计生成内容的事实错误数量；
		测试对近期事件（如 3 个月内的科技新闻）的认知程度。

工程化指标 决定大模型 "好不好用、能不能落地"。

①安全性

复制代码

评估维度：有害内容生成率（暴力、歧视、谣言）、prompt 注入抵御能力、
			隐私保护能力（是否泄露训练数据中的敏感信息）。
核心标准：通过 Red Teaming（红队测试） 模拟恶意攻击，测试模型的防御边界。

②效率与成本

复制代码

评估维度：推理速度（tokens/s）、显存占用、单轮对话成本（按 token 计费）、并发支持能力。
核心标准：在满足效果的前提下，推理延迟是否符合应用场景要求（如实时对话需 <500ms）。

③鲁棒性

复制代码

评估维度：对输入噪声的容忍度（如错别字、乱码、超长文本）、
				极端指令的处理能力（如 "写一篇 10 万字的论文"）。
核心标准：不会因输入异常导致崩溃或生成无意义内容。

④可扩展性

复制代码

评估维度：是否支持微调（Fine-tuning）、提示工程（Prompt Engineering）适配下游任务，
				是否兼容插件 / 工具调用。

Agent 质量评估标准

Agent 是大模型 + 工具 + 记忆 + 规划的综合体，其核心价值是完成复杂任务，因此评估重点从 "模型能力" 转向 "任务执行能力"。通常分为 核心任务能力指标 和 辅助评估指标

核心任务能力指标

①任务完成率

复制代码

这是 Agent 的第一核心指标。
	评估维度：能否在无人工干预下，完整完成端到端任务（如 "帮我查明天北京的天气，预订合适的机票，再推荐附近的酒店"）。
	细分标准：任务拆解合理性（是否拆分为 "查天气→选机票→订酒店" 子任务）、子任务执行顺序正确性。

②工具调用能力

复制代码

Agent 的核心优势是连接外部工具，这一维度决定其 "能做多少事"。
评估维度：工具选择准确率（如查天气不会调用计算器）、
		参数填充正确性（如传入正确的城市和日期）、
		工具调用失败的容错能力（如接口报错后是否重试或切换工具）。
评估方法：构造需要多工具协作的任务（如 "用计算器算 100*20，再用地图查距离最近的超市"），
	    统计工具调用的精准度。

③记忆与上下文管理能力

复制代码

决定 Agent 的 "多轮交互体验"。
评估维度：短期记忆（多轮对话中是否记住用户偏好，如 "我不吃辣"）、
	   长期记忆（跨会话是否能保存用户信息）、
	   记忆内容的精准调用（不会混淆不同用户的需求）。

④自主规划与决策能力

复制代码

区别于大模型 "被动响应" 的核心特征。
评估维度：面对模糊需求时的主动追问能力（如用户说 "帮我安排旅行"，Agent 是否会问 "目的地、时间、预算"）、
		意外情况的决策能力（如机票售罄后是否推荐替代方案）。

辅助评估指标

①用户体验

复制代码

评估维度：交互自然度（是否像人类对话）、响应速度、操作门槛（是否需要复杂指令）。

②可靠性

复制代码

评估维度：任务执行的一致性（同一需求多次执行结果是否稳定）、错误修复能力（用户指出错误后是否能修正）。

③资源消耗

复制代码

评估维度：工具调用次数（避免无效调用增加成本）、大模型推理次数（是否能通过记忆减少重复推理）。

通用评估方法:

自动评估：基于标准化数据集（如 MMLU 评估大模型综合能力）、指标计算（BLEU、任务完成率），优势是高效、可量化，适合初步筛选。

人工评估：由专业标注员或用户从 "效果、体验、合理性" 打分，优势是贴近真实场景，适合评估生成内容的质量和 Agent 的交互体验。

人机对比评估：对比 Agent / 大模型与人类执行同一任务的效果，核心看 "差距有多大"，适合关键场景的验收测试。

A/B 测试：在真实应用场景中，对比不同模型 / Agent 版本的表现（如转化率、用户满意度），是落地前的核心验证手段。

大模型质量评估列表

复制代码

（一）基础认知与语言能力
 ★指令遵循度：准确率≥90%
 ★生成内容质量：流畅性、逻辑性（人工评分≥4分/15分制）；困惑度（Perplexity）≤30
 逻辑推理能力：数学推理（GSM8K准确率≥70%）、常识推理（HellaSwag准确率≥80%）
 知识准确性：事实错误率≤5%，无幻觉；支持多模态理解（文本、图片、语音、视频）
 多语言支持：中英文并重，适配国际化需求

 
（二）工程化与实用性
 ★推理速度：实时对话延迟≤500ms；批量生成≥20 tokens/s
 ★鲁棒性：异常输入（错别字、乱码、超长文本）处理成功率≥90%
 可扩展性：支持主流微调框架；可对接3种以上常用插件
 推理成本：单轮对话成本≤预设阈值（如0.01元/轮）
 

（三）安全性与伦理
 ★有害内容防控：有害内容生成率≤1%，通过红队测试验证
 隐私保护：无训练数据敏感信息泄露，抵御提示词攻击
 公平性：不同群体表现差异（Disparate Impact）≤10%，无刻板印象
 合规性：覆盖16项核心安全风险指标（内容安全、指令安全）

 
（四）专项领域能力
 教育领域：适配K12多学科知识测评，支持智能备课、个性化学习路径规划
 科研领域：覆盖物理、化学等6大科学领域，支持文献分析、假设生成、数据分析

Agent质量评估列表

复制代码

（一）核心任务执行能力
	 ★任务完成率：无人工干预下端到端任务完成率≥85%
	 ★任务拆解合理性：拆解准确率≥95%，子任务顺序正确
	 自主规划与追问：模糊需求追问率≥100%，子任务顺序正确率≥90%
	 异常处理能力：意外场景（接口报错、资源售罄）恢复率≥90%
	 常识与领域背景适配性：具备隐含假设推理能力，适配真实场景常识需求

 
（二）工具与记忆管理能力
	 ★工具调用准确率：工具选择正确率≥99%，参数填充正确率≥98%
	 短期记忆能力：多轮对话关键信息召回率≥95%
	 长期记忆能力：跨会话关键信息召回率≥85%
	 工具容错能力：支持接口报错重试、替代工具切换

	 
（三）用户体验与可靠性
	 ★交互自然度：人工评分≥4分（15分制），贴近人类交流模式
	 响应时效性：普通任务≤2s，复杂任务≤5s
	 输出一致性：同类任务偏差率≤3%
	 社交协作能力：支持多Agent间有效交互，准确响应协作需求

 
（四）资源与成本控制
	 工具调用效率：无无效工具调用，控制调用次数
	 推理资源优化：通过记忆机制减少重复推理，降低资源消耗