基于 Ragas 的 RAG 问答系统迭代评测流程

基于Ragas的RAG系统迭代评测流程,如下图所示:


Ragas框架 RAG系统 评测程序/脚本 原始知识库 Ragas框架 RAG系统 评测程序/脚本 原始知识库 阶段一:评测集构建 阶段二:批量自动化评测 loop 并行推理 loop Ragas多指标- 计算 阶段三:结果决策与优化 alt 知识库问题 算法优化 模型升级 alt 指标达标 需优化 业务专家 开发人员 线上日志采集+清洗筛选 1 候选问题集 2 人工抽样复核 3 查询原始资料验证 4 编写Ground Truth 👤 业务专家:输出(Question, GT) 5 交付评测集 6 基于评测集触发评测 👤 开发人员:加载并执行 7 批量提交Questions 8 检索+生成 9 返回(Answer, Contexts) 10 提交评测数据 11 Context Recall 12 Context Precision 13 Faithfulness 14 Answer Correctness 15 返回指标分数 16 返回评测报告 17 交付报告 👤 开发人员:人工交付或内部流转 18 审阅报告决策 19 决策:通过发布 20 反馈Bad Case 21 技术分析根因 22 补充修正知识 23 调整检索/Prompt 24 更换Embedding/LLM 25 重新触发评测 26 业务专家 开发人员


上图中,关于第 ① 和第 ② 步,如果是新系统没有历史数据问题的情况下,则由业务专家直接编写问题清单,也可以使用 LLM 基于原材料和按照一定的要求生成一批问题。


(END)

相关推荐
Elastic 中国社区官方博客3 小时前
Elasticsearch DiskBBQ:使用原生 SIMD Blocks 实现快 40% 的向量评分计算
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·diskbbq
男孩李3 小时前
浅谈open jiuwen
人工智能·ai
Elastic 中国社区官方博客4 小时前
Kibana:使用 AI Chat 及 MCP 轻松创建 AI 原生仪表板
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·信息可视化
汤姆yu5 小时前
原生一体化多模态大模型技术研究
ai·大模型·多模态·智能体
汤姆yu8 小时前
Agentic AI自主智能体技术深度研究
人工智能·ai·智能体
哥布林学者8 小时前
深度学习进阶(二十七)现代 LLM 的核心架构设计其二:SwiGLU
机器学习·ai
coderwei1239 小时前
从OpenAI到Strip:用六大支柱读懂Harness Engineering的生产实践
python·ai·ai编程
小真zzz10 小时前
当“虚构的解决方案”成为试金石:搜极星如何将市场幻想变为可验证的现实?
搜索引擎·ai·大模型·deepseek
土星云SaturnCloud10 小时前
基于边缘计算的商场智慧运营架构设计与AI落地实践
服务器·人工智能·ai·边缘计算
启途AI10 小时前
当营销话术超越产品实体:GEO市场的诚信挑战
大数据·人工智能·搜索引擎·ai·chatgpt