基于 Ragas 的 RAG 问答系统迭代评测流程

基于Ragas的RAG系统迭代评测流程,如下图所示:


Ragas框架 RAG系统 评测程序/脚本 原始知识库 Ragas框架 RAG系统 评测程序/脚本 原始知识库 阶段一:评测集构建 阶段二:批量自动化评测 loop 并行推理 loop Ragas多指标- 计算 阶段三:结果决策与优化 alt 知识库问题 算法优化 模型升级 alt 指标达标 需优化 业务专家 开发人员 线上日志采集+清洗筛选 1 候选问题集 2 人工抽样复核 3 查询原始资料验证 4 编写Ground Truth 👤 业务专家:输出(Question, GT) 5 交付评测集 6 基于评测集触发评测 👤 开发人员:加载并执行 7 批量提交Questions 8 检索+生成 9 返回(Answer, Contexts) 10 提交评测数据 11 Context Recall 12 Context Precision 13 Faithfulness 14 Answer Correctness 15 返回指标分数 16 返回评测报告 17 交付报告 👤 开发人员:人工交付或内部流转 18 审阅报告决策 19 决策:通过发布 20 反馈Bad Case 21 技术分析根因 22 补充修正知识 23 调整检索/Prompt 24 更换Embedding/LLM 25 重新触发评测 26 业务专家 开发人员


上图中,关于第 ① 和第 ② 步,如果是新系统没有历史数据问题的情况下,则由业务专家直接编写问题清单,也可以使用 LLM 基于原材料和按照一定的要求生成一批问题。


(END)

相关推荐
doiito4 小时前
【Agent Harness】Gliding Horse 上下文动态感知与智能压缩:让 Agent 真正“听得进”每一句话
ai·rust·架构设计·系统设计·ai agent
探索云原生1 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes
Zy宇1 天前
从养 OpenClaw 到养社区 AI:一套 Multi-Agent 社区的设计思路
人工智能·ai
doiito1 天前
【Agent Harness】Gliding Horse 记忆系统深度剖析:像 CPU 一样思考的 AI 记忆架构
ai·rust·架构设计·系统设计·ai agent
mobility2 天前
免费AI视频生成器:我如何用零成本做出带旁白字幕的多场景AI视频
ai·vibe coding
doiito2 天前
【Agent Harness】Gliding Horse 给 Agent OS 装上双曲空间引擎与默克尔树边云同步
ai·rust·架构设计·系统设计·ai agent
knqiufan2 天前
从 Python 到 TypeScript,用 GLM-5.2 跑通 PowerMem SDK 的长程任务工程
ai·memory·agentic·powermem
小白跃升坊3 天前
Codex 增强部署:基于 Codex++ 接入 DeepSeek
ai·ai编程·codex·deepseek·ai coding·codex++
AlfredZhao3 天前
GPT 省钱,不是别用最新模型,而是别浪费缓存
gpt·ai
doiito3 天前
【Agent Harness】Gliding Horse 本体论系统设计:给 AI Agent 装上“语义大脑”
ai·rust·架构设计·系统设计·ai agent