AI 智能体问答 Ragas 自动化评测内部流程图

Ragas自动化评测内部流程,如下图所示:


📈 输出结果
📐 Ragas 四大指标计算
📊 输入数据
Faithfulness (答案忠诚度)
Context Precision (上下文精确率)
Context Recall (上下文召回率)
Answer Correctness (答案正确性)
Question

(用户问题)
Answer

(RAG系统输出)
Contexts

(检索召回文档)
Ground Truth

(人工标注标准)
语义相似度

🤖 Embedding模型

余弦相似度
事实准确度

🤖 LLM评委

观点提取+比对
加权求和

0.25*语义 + 0.75*事实
GT观点分解

🤖 LLM评委
逐观点验证

Contexts支撑?
得分=支撑观点/GT总观点
逐Context相关性判断

🤖 LLM评委
计算Precision@K
平均Precision
Answer观点提取

🤖 LLM评委
逐观点核实

Contexts溯源
得分=可支撑观点/总观点
各项分数

0-1标准化
明细数据

失败案例标注
聚合报告

趋势对比


指标 概述 含义说明
Answer Correctness (答案正确性) 生成答案有多"对" 衡量RAG生成的答案与标准答案的整体正确程度,兼顾语义相近和事实准确
Context Recall (上下文召回率) 检索有多"全" 衡量检索召回的文档是否覆盖了回答问题所需的全部信息(查全率)
Context Precision (上下文精确率) 检索有多"准" 衡量检索召回的文档中有多少比例是真正相关的(查准率),相关内容排序越靠前得分越高
Faithfulness (答案忠实度) 生成有多"真" 衡量生成的答案内容是否忠实于检索文档,检测幻觉/编造内容

(END)

相关推荐
小七-七牛开发者4 分钟前
Codex 实践系列 Vol.02:让 Codex 读懂开源项目 Typer
ai·chatgpt·openai·agent·工作流·codex·skill·ai coding
li-xun8 分钟前
2026年6月14日博客精选
人工智能·ai
多年小白1 小时前
【周末消息汇总】2026年6月12日-14日——放量突破,明日开盘策略
人工智能·ai
Flandern11111 小时前
Claude Code常用技巧
ai·ai编程·code·claudecode
dozenyaoyida1 小时前
AI与大模型新闻日报 | 2026-06-13
人工智能·ai·大模型·新闻
说实话起个名字真难啊1 小时前
提示词工程入门:提示词技术基础
ai
笨蛋©2 小时前
2026年制造业MSA测量系统分析(Measurement System Analysis)标准化…
ai·数字化·质量管理·制造业·图纸识别
Tbisnic2 小时前
AI大模型学习第十三天:让AI学会查资料、记数据、看图和听声
人工智能·ai·大模型开发·rag·coze
寒山李白2 小时前
Gemini 2.5 Flash Lite 实效表现与能力边界全景解析
ai·大模型·gemini·评测
盒子69102 小时前
大模型运维中ECC Mode问题
ai·运维开发·ai编程