基于 Ragas 的 RAG 问答系统迭代评测流程

基于Ragas的RAG系统迭代评测流程,如下图所示:


Ragas框架 RAG系统 评测程序/脚本 原始知识库 Ragas框架 RAG系统 评测程序/脚本 原始知识库 阶段一:评测集构建 阶段二:批量自动化评测 loop [并行推理] loop [Ragas多指标- 计算] 阶段三:结果决策与优化 alt [知识库问题] [算法优化] [模型升级] alt [指标达标] [需优化] 业务专家 开发人员 线上日志采集+清洗筛选 1 候选问题集 2 人工抽样复核 3 查询原始资料验证 4 编写Ground Truth 👤 业务专家:输出(Question, GT) 5 交付评测集 6 基于评测集触发评测 👤 开发人员:加载并执行 7 批量提交Questions 8 检索+生成 9 返回(Answer, Contexts) 10 提交评测数据 11 Context Recall 12 Context Precision 13 Faithfulness 14 Answer Correctness 15 返回指标分数 16 返回评测报告 17 交付报告 👤 开发人员:人工交付或内部流转 18 审阅报告决策 19 决策:通过发布 20 反馈Bad Case 21 技术分析根因 22 补充修正知识 23 调整检索/Prompt 24 更换Embedding/LLM 25 重新触发评测 26 业务专家 开发人员


上图中,关于第 ① 和第 ② 步,如果是新系统没有历史数据问题的情况下,则由业务专家直接编写问题清单,也可以使用 LLM 基于原材料和按照一定的要求生成一批问题。


(END)

相关推荐
Java识堂19 小时前
mcp指南
ai
GJGCY19 小时前
企业AI Agent落地架构深度解析:LLM+RAG+RPA+工具调用全流程
大数据·人工智能·ai·数字化·智能体
老王谈企服19 小时前
大模型时代,制造业周期性成本分析将如何智能化升级?——工业Agent落地指南与全链路成本重构方案
人工智能·ai·重构
Hexian258021 小时前
SpringAI系列(基础概念&springai系列 API)
spring·ai
元拓数智1 天前
AI 自动化工作流,正在重塑企业数据工程的效率边界
大数据·人工智能·ai·自动化·工作流·数据工程
qcx231 天前
阿里 RynnVLA-002 源码深度拆解:一个 7B 模型如何同时当机器人大脑和世界模拟器
ai·机器人·llm·agent·具身智能·vla
尘埃落定wf1 天前
Prompt给到LLM后的完整执行链
ai·fastapi
Agent手记1 天前
采购合同智能审核自动化,落地步骤与落地风险管控方案 —— 2026年企业级Agent深度实战指南
运维·人工智能·ai·自动化
小陶来咯1 天前
xiaohongshu-mcp 接入 xiaozhi 详细文档
ai
Resistance丶未来1 天前
从零构建大语言模型:核心原理与实战落地
人工智能·ai·语言模型·自然语言处理·nlp·多模态大模型·ai工具