基于 Ragas 的 RAG 问答系统迭代评测流程

catoop2026-04-24 20:56

基于Ragas的RAG系统迭代评测流程，如下图所示：

Ragas框架 RAG系统评测程序/脚本原始知识库 Ragas框架 RAG系统评测程序/脚本原始知识库阶段一：评测集构建阶段二：批量自动化评测 loop $并行推理$ loop $Ragas多指标- 计算$ 阶段三：结果决策与优化 alt $知识库问题$ $算法优化$ $模型升级$ alt $指标达标$ $需优化$ 业务专家开发人员线上日志采集+清洗筛选 1 候选问题集 2 人工抽样复核 3 查询原始资料验证 4 编写Ground Truth 👤 业务专家：输出(Question, GT) 5 交付评测集 6 基于评测集触发评测 👤 开发人员：加载并执行 7 批量提交Questions 8 检索+生成 9 返回(Answer, Contexts) 10 提交评测数据 11 Context Recall 12 Context Precision 13 Faithfulness 14 Answer Correctness 15 返回指标分数 16 返回评测报告 17 交付报告 👤 开发人员：人工交付或内部流转 18 审阅报告决策 19 决策：通过发布 20 反馈Bad Case 21 技术分析根因 22 补充修正知识 23 调整检索/Prompt 24 更换Embedding/LLM 25 重新触发评测 26 业务专家开发人员

上图中，关于第 ① 和第 ② 步，如果是新系统没有历史数据问题的情况下，则由业务专家直接编写问题清单，也可以使用 LLM 基于原材料和按照一定的要求生成一批问题。

（END）