AI 智能体问答 Ragas 自动化评测内部流程图

catoop2026-04-24 14:23

Ragas自动化评测内部流程，如下图所示：

📈 输出结果
📐 Ragas 四大指标计算
📊 输入数据
Faithfulness (答案忠诚度)
Context Precision (上下文精确率)
Context Recall (上下文召回率)
Answer Correctness (答案正确性)
Question

(用户问题)
Answer

(RAG系统输出)
Contexts

(检索召回文档)
Ground Truth

(人工标注标准)
语义相似度

🤖 Embedding模型

余弦相似度
事实准确度

🤖 LLM评委

观点提取+比对
加权求和

0.25*语义 + 0.75*事实
GT观点分解

🤖 LLM评委
逐观点验证

Contexts支撑?
得分=支撑观点/GT总观点
逐Context相关性判断

🤖 LLM评委
计算Precision@K
平均Precision
Answer观点提取

🤖 LLM评委
逐观点核实

Contexts溯源
得分=可支撑观点/总观点
各项分数

0-1标准化
明细数据

失败案例标注
聚合报告

趋势对比

指标	概述	含义说明
Answer Correctness (答案正确性)	生成答案有多"对"	衡量RAG生成的答案与标准答案的整体正确程度，兼顾语义相近和事实准确
Context Recall (上下文召回率)	检索有多"全"	衡量检索召回的文档是否覆盖了回答问题所需的全部信息（查全率）
Context Precision (上下文精确率)	检索有多"准"	衡量检索召回的文档中有多少比例是真正相关的（查准率），相关内容排序越靠前得分越高
Faithfulness (答案忠实度)	生成有多"真"	衡量生成的答案内容是否忠实于检索文档，检测幻觉/编造内容

（END）