AI 智能体问答 Ragas 自动化评测内部流程图

Ragas自动化评测内部流程,如下图所示:


📈 输出结果
📐 Ragas 四大指标计算
📊 输入数据
Faithfulness (答案忠诚度)
Context Precision (上下文精确率)
Context Recall (上下文召回率)
Answer Correctness (答案正确性)
Question

(用户问题)
Answer

(RAG系统输出)
Contexts

(检索召回文档)
Ground Truth

(人工标注标准)
语义相似度

🤖 Embedding模型

余弦相似度
事实准确度

🤖 LLM评委

观点提取+比对
加权求和

0.25*语义 + 0.75*事实
GT观点分解

🤖 LLM评委
逐观点验证

Contexts支撑?
得分=支撑观点/GT总观点
逐Context相关性判断

🤖 LLM评委
计算Precision@K
平均Precision
Answer观点提取

🤖 LLM评委
逐观点核实

Contexts溯源
得分=可支撑观点/总观点
各项分数

0-1标准化
明细数据

失败案例标注
聚合报告

趋势对比


指标 概述 含义说明
Answer Correctness (答案正确性) 生成答案有多"对" 衡量RAG生成的答案与标准答案的整体正确程度,兼顾语义相近和事实准确
Context Recall (上下文召回率) 检索有多"全" 衡量检索召回的文档是否覆盖了回答问题所需的全部信息(查全率)
Context Precision (上下文精确率) 检索有多"准" 衡量检索召回的文档中有多少比例是真正相关的(查准率),相关内容排序越靠前得分越高
Faithfulness (答案忠实度) 生成有多"真" 衡量生成的答案内容是否忠实于检索文档,检测幻觉/编造内容

(END)

相关推荐
程序员鱼皮3 小时前
Git WorkTree 是什么?凭什么能让 AI 编程效率翻倍?
git·ai·程序员·编程·ai编程
俊哥V3 小时前
每日 AI 研究简报 · 2026-04-23
人工智能·ai
wei_shuo3 小时前
办公小浣熊Office Raccoon 2.0智能助手:帮助我真正实现数据处理工作中的降本、增效、提质
大数据·ai·数据处理
Agent手记3 小时前
多系统集成破局:企业级智能体打通异构系统的完整解决方案 | 2026全链路落地实操
人工智能·ai
乐嘉明4 小时前
在线堆文件分析功能
java·ai
圆山猫4 小时前
[AI] [Linux] 教我编一个启用rust的riscv kernel用于qemu启动
linux·ai·rust
Elastic 中国社区官方博客4 小时前
Jina embeddings v3 现已在 Gemini Enterprise Agent Platform Model Garden 上可用
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina