LLM论文：ALCE （Enabling Large Language Models to Generate Text with Citations）

__心似大海__2024-01-17 18:19

这是一篇RAG领域的文章，原文在这：https://aclanthology.org/2023.emnlp-main.398.pdf

|---------|---------------------------------------------------------------------------------------------------------------------------|
| 时间 | $Submitted on 24 May 2023 ([v1](https://arxiv.org/abs/2305.14627v1 "v1")), last revised 31 Oct 2023 (this version, v2)$ |
| 背景 | LLM在信息搜索、生成带引用的文本时存在幻觉问题，即事实准确性有待提升，而且用户难以验证准确性。 |
| 现有工作的不足 | 人工评估或商用搜索引擎，难以复现和比较不同模型 |
| 解决 | 提出A utomatic L LM C itation Evalutation 自动化评估模型检索生成能力 |
| 创新点 | 1. 评估长文本生成 2. 自动评估引用质量 3. 允许为一个陈述引用多篇文章 |

具体工作内容：

数据集

有三个数据集，分别是

ALCE评估模型：

三方面评估

流畅度------MAUVE (Pillutla et al., 2021)
正确性------根据数据集特点，定制了三种评估方式，主要使用了召回率，正确率
引用质量------根据数据集特点，定制了三种评估方式，主要使用了召回率，正确率

检索生成方式

vanilla：提供模型可能包含答案的文章，写提示词告诉他要正确地引用
summ/snippet: 不提供完整的文章而是概要版或某一段，为了减少信息损失，还结合了INTERACT，模型可以选择是否去看一个浓缩版对应的完整的文章
inlinesearch：不提供检索结果，允许模型调用搜索
closebook：不提供外部文章，让模型闭卷给出答案。