基于 Ragas 的 RAG 问答系统迭代评测流程

基于Ragas的RAG系统迭代评测流程,如下图所示:


Ragas框架 RAG系统 评测程序/脚本 原始知识库 Ragas框架 RAG系统 评测程序/脚本 原始知识库 阶段一:评测集构建 阶段二:批量自动化评测 loop [并行推理] loop [Ragas多指标- 计算] 阶段三:结果决策与优化 alt [知识库问题] [算法优化] [模型升级] alt [指标达标] [需优化] 业务专家 开发人员 线上日志采集+清洗筛选 1 候选问题集 2 人工抽样复核 3 查询原始资料验证 4 编写Ground Truth 👤 业务专家:输出(Question, GT) 5 交付评测集 6 基于评测集触发评测 👤 开发人员:加载并执行 7 批量提交Questions 8 检索+生成 9 返回(Answer, Contexts) 10 提交评测数据 11 Context Recall 12 Context Precision 13 Faithfulness 14 Answer Correctness 15 返回指标分数 16 返回评测报告 17 交付报告 👤 开发人员:人工交付或内部流转 18 审阅报告决策 19 决策:通过发布 20 反馈Bad Case 21 技术分析根因 22 补充修正知识 23 调整检索/Prompt 24 更换Embedding/LLM 25 重新触发评测 26 业务专家 开发人员


上图中,关于第 ① 和第 ② 步,如果是新系统没有历史数据问题的情况下,则由业务专家直接编写问题清单,也可以使用 LLM 基于原材料和按照一定的要求生成一批问题。


(END)

相关推荐
企业架构师老王2 小时前
数据安全优先:企业级智能体私有化部署完整方案与最佳实践
人工智能·ai
阿杰学AI3 小时前
AI核心知识135—大语言模型之 OpenClaw(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·ai编程·openclaw
数字游民95274 小时前
gpt image 2怎么用?3个案例+使用方法
人工智能·ai·数字游民9527
belldeep4 小时前
Blender + AI 全套工作流
人工智能·ai·blender
少许极端5 小时前
AI修炼记1-Tool Calling
人工智能·ai·spring ai·tool calling
Lonwayne6 小时前
从提示词工程到驾驭工程:AI协作的三代进化
人工智能·ai·ai编程·ai智能体
哥布林学者7 小时前
深度学习进阶(十一)Position-Sensitive RoI Pooling
机器学习·ai
jiayong237 小时前
Hermes Agent 的 Skills、Plugins、Gateway 深度解析
ai·gateway·agent·hermes agent·hermes
rayylee7 小时前
KeyCompute-企业级 AI 算力中转平台
ai