AI 智能体问答 Ragas 自动化评测内部流程图

Ragas自动化评测内部流程,如下图所示:


📈 输出结果
📐 Ragas 四大指标计算
📊 输入数据
Faithfulness (答案忠诚度)
Context Precision (上下文精确率)
Context Recall (上下文召回率)
Answer Correctness (答案正确性)
Question

(用户问题)
Answer

(RAG系统输出)
Contexts

(检索召回文档)
Ground Truth

(人工标注标准)
语义相似度

🤖 Embedding模型

余弦相似度
事实准确度

🤖 LLM评委

观点提取+比对
加权求和

0.25*语义 + 0.75*事实
GT观点分解

🤖 LLM评委
逐观点验证

Contexts支撑?
得分=支撑观点/GT总观点
逐Context相关性判断

🤖 LLM评委
计算Precision@K
平均Precision
Answer观点提取

🤖 LLM评委
逐观点核实

Contexts溯源
得分=可支撑观点/总观点
各项分数

0-1标准化
明细数据

失败案例标注
聚合报告

趋势对比


指标 概述 含义说明
Answer Correctness (答案正确性) 生成答案有多"对" 衡量RAG生成的答案与标准答案的整体正确程度,兼顾语义相近和事实准确
Context Recall (上下文召回率) 检索有多"全" 衡量检索召回的文档是否覆盖了回答问题所需的全部信息(查全率)
Context Precision (上下文精确率) 检索有多"准" 衡量检索召回的文档中有多少比例是真正相关的(查准率),相关内容排序越靠前得分越高
Faithfulness (答案忠实度) 生成有多"真" 衡量生成的答案内容是否忠实于检索文档,检测幻觉/编造内容

(END)

相关推荐
Li_yizYa12 分钟前
【大模型篇】谈谈对于Function Calling、MCP、Skill的理解
ai·大模型
带刺的坐椅40 分钟前
Spring AI 2.0 GA 倒计时:先别急,来看看 Java AI 框架的另一条路
java·spring·ai·llm·agent·solon
一行11 小时前
问鼎 API 接入 CC Switch
ai·wendingai
门豪杰2 小时前
2026年4月,我调研了15款主流大模型
ai·大模型·平台选择
多年小白2 小时前
Snowflake (SNOW) 可比公司分析报告
大数据·人工智能·科技·深度学习·ai
多年小白2 小时前
【行情复盘】2026年5月14日(周四)
人工智能·科技·机器学习·ai·金融
爱跑步的程序员~3 小时前
RAG 技术全面解析:从原理到实践
python·ai·langchain·rag
测试_AI_一辰3 小时前
AI时代,学东西的方式变了
人工智能·ai·自动化·状态模式·ai编程
AI360labs_atyun3 小时前
ChatGPT更新免费版GPT-5.5 Instant
人工智能·科技·gpt·ai·chatgpt·agi
Rocktech_ruixun3 小时前
2026服务机器人选型指南
人工智能·科技·ai·机器人