Ragas自动化评测内部流程,如下图所示:
📈 输出结果
📐 Ragas 四大指标计算
📊 输入数据
Faithfulness (答案忠诚度)
Context Precision (上下文精确率)
Context Recall (上下文召回率)
Answer Correctness (答案正确性)
Question
(用户问题)
Answer
(RAG系统输出)
Contexts
(检索召回文档)
Ground Truth
(人工标注标准)
语义相似度
🤖 Embedding模型
余弦相似度
事实准确度
🤖 LLM评委
观点提取+比对
加权求和
0.25*语义 + 0.75*事实
GT观点分解
🤖 LLM评委
逐观点验证
Contexts支撑?
得分=支撑观点/GT总观点
逐Context相关性判断
🤖 LLM评委
计算Precision@K
平均Precision
Answer观点提取
🤖 LLM评委
逐观点核实
Contexts溯源
得分=可支撑观点/总观点
各项分数
0-1标准化
明细数据
失败案例标注
聚合报告
趋势对比
| 指标 | 概述 | 含义说明 |
|---|---|---|
| Answer Correctness (答案正确性) | 生成答案有多"对" | 衡量RAG生成的答案与标准答案的整体正确程度,兼顾语义相近和事实准确 |
| Context Recall (上下文召回率) | 检索有多"全" | 衡量检索召回的文档是否覆盖了回答问题所需的全部信息(查全率) |
| Context Precision (上下文精确率) | 检索有多"准" | 衡量检索召回的文档中有多少比例是真正相关的(查准率),相关内容排序越靠前得分越高 |
| Faithfulness (答案忠实度) | 生成有多"真" | 衡量生成的答案内容是否忠实于检索文档,检测幻觉/编造内容 |
(END)