用 Hugging Face 数据集给现成 RAG App 做离线评估

我手上已经有一套能跑的 RAG App，也已经接了 ragas。

这篇文章记录我用 Hugging Face 上的 HotpotQA 数据集，把现有 RAG App 接到离线评估里的过程。

Git 链接：

这次离线评估链路：

还要补上公开数据集接到现有系统里的流程。

我用的是：

这里顺手补一下 Hugging Face dataset 常见的两个概念：

这次做 ragas 测试时，我用的是 fullwiki + validation，先把前 15 条样本保存到本地 JSON，再从里面选前 5 条跑一轮。

原始数据截图：

这次流程分两步：

这个顺序不能反。先有 RAG 的真实输出，后面才有 ragas 的评估对象。

为了把 Hugging Face 数据集接进现有 RAG App，我补了一层预处理和运行入口。它做的事情不复杂：

代码位置：

我这里最后是用虚拟环境里的 Python 跑的，不是直接用系统 python3。

这个细节不能省，因为我中途就踩过一次坑：系统解释器和项目 .venv 的依赖不一致，导致 app.rag 能在前端服务里正常工作，但命令行评估直接导入失败。

所以最终命令是：

bash 复制代码

. .venv/bin/activate
python -m eval.cli run-hotpotqa-local \
  --input eval/datasets/hotpotqa_fullwiki_validation_15.json \
  --limit 5

这条命令会完成：

报告目录下主要看这几个文件：

其中：

报告截图：

主要看三个指标：

如此我们可以根据评估结果更好地迭代RAG应用。