基于Ragas的RAG系统迭代评测流程,如下图所示:
Ragas框架 RAG系统 评测程序/脚本 原始知识库 Ragas框架 RAG系统 评测程序/脚本 原始知识库 阶段一:评测集构建 阶段二:批量自动化评测 loop [并行推理] loop [Ragas多指标- 计算] 阶段三:结果决策与优化 alt [知识库问题] [算法优化] [模型升级] alt [指标达标] [需优化] 业务专家 开发人员 线上日志采集+清洗筛选 1 候选问题集 2 人工抽样复核 3 查询原始资料验证 4 编写Ground Truth 👤 业务专家:输出(Question, GT) 5 交付评测集 6 基于评测集触发评测 👤 开发人员:加载并执行 7 批量提交Questions 8 检索+生成 9 返回(Answer, Contexts) 10 提交评测数据 11 Context Recall 12 Context Precision 13 Faithfulness 14 Answer Correctness 15 返回指标分数 16 返回评测报告 17 交付报告 👤 开发人员:人工交付或内部流转 18 审阅报告决策 19 决策:通过发布 20 反馈Bad Case 21 技术分析根因 22 补充修正知识 23 调整检索/Prompt 24 更换Embedding/LLM 25 重新触发评测 26 业务专家 开发人员
上图中,关于第 ① 和第 ② 步,如果是新系统没有历史数据问题的情况下,则由业务专家直接编写问题清单,也可以使用 LLM 基于原材料和按照一定的要求生成一批问题。
(END)