介绍FRAMES：一个统一的检索增强生成评估框架

引言

大型语言模型（LLMs）在认知任务上取得了显著进步，检索增强生成（RAG）技术成为提升模型性能的重要方法。然而，现有的评估方法往往孤立地测试模型的检索能力、事实性和推理能力，无法全面反映模型在真实场景中的表现。为了解决这一问题，谷歌DeepMind和哈佛大学的研究团队提出了FRAMES（Factuality, Retrieval, And reasoning MEasurement Set），这是一个高质量的数据集，旨在统一评估RAG系统的核心能力。

FRAMES的核心特点

FRAMES数据集包含824个具有挑战性的多跳问题，每个问题需要整合多个维基百科文章的信息才能回答。这些问题覆盖了历史、体育、科学、动物、健康等多个领域，并涉及以下五种推理类型：

数值推理：涉及计数、比较或计算。
表格推理：需要分析维基百科中的表格或信息框。
多重约束：问题包含多个约束条件，其交集指向唯一答案。
时间推理：涉及时间线的推理。
后处理：在收集所有必要事实后，需要进行特定处理（如单位转换或格式调整）。

FRAMES的独特之处在于它首次将事实性、检索能力和推理能力整合到一个统一的评估框架中，填补了现有基准测试的空白。

数据集构建过程

研究团队首先尝试通过LLM生成合成数据，但发现超过30%的问题存在幻觉或错误。因此，他们转向人工标注，由专家团队设计问题，并确保每个问题需要2到15篇维基百科文章才能回答。此外，团队还实施了严格的质量检查，包括：

验证答案的正确性和基于维基百科的可靠性。
添加时间上下文以避免歧义（例如"截至2024年8月1日"）。
避免二元答案问题，防止模型通过随机猜测获得高分。

实验结果

研究团队对多个先进LLM（如Gemini-Pro、Gemini-Flash、Gemma2等）进行了评估，结果如下：

单步评估：
- 在没有检索的情况下，Gemini-Pro的准确率仅为0.408。
- 通过BM25检索相关文章后，准确率提升至0.474。
- 当提供所有相关文章（Oracle Prompt）时，准确率达到0.729，但模型在数值推理、表格推理和后处理任务上仍表现不佳。
多步评估：
- 通过多步检索和推理，模型的准确率显著提升至0.66（接近Oracle性能）。
- 改进的关键在于为模型提供搜索规划指令，例如避免重复查询和分步思考。

意义与未来方向

FRAMES为RAG系统的评估提供了更全面的基准，揭示了当前模型在复杂推理任务上的局限性。未来研究方向包括：

开发更高效的检索策略（如基于ColBERT或SimCSE的密集检索器）。
提升模型的推理能力（如通过过程监督或蒸馏技术）。
扩展数据集以涵盖更多领域和动态信息。

结论

FRAMES是评估RAG系统的重要一步，它不仅帮助研究者更准确地衡量模型性能，还为改进检索和推理能力提供了明确方向。随着RAG技术在现实应用中的普及，这样的综合评估框架将变得越来越重要。

数据集链接 ：Hugging Face
论文作者：Satyapriya Krishna, Kalpesh Krishna, Anhad Mohananey等