day02论文学习：能够使大语言模型产生带有引用的文章

1.主题：Enabling Large Language Models to Generate Text with Citations（能够使大语言模型产生带有引用的文章）

引用出处： Gao, T., Yen, H., Yu, J., & Chen, D. (2023). Enabling Large Language Models to Generate Text with Citations. ArXiv, abs/2305.14627.

提示： 建议先看论文01，里面提到了 "生成带有引用的文本" 。

2. 摘要：

大型语言模型（LLMs）已经成为广泛使用的信息搜索工具，但它们生成的输出容易出现幻觉【1.前景】 。在这项工作中，我们的目标是让LLMs生成带有引文的文本【2.目的】 ，提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估，这使得重新复制和比较不同的建模方法变得具有挑战性。我们提出了** ALCE【3.核心关键词，控制变量的关键】**，这是第一个用于自动LLMs引文评估的基准。ALCE收集了各种问题和检索语料库，并要求构建端到端系统来检索所支持的文档并生成带有引文的答案。【4.关键词作用】我们开发了沿着流畅性、正确性和引文质量三个维度的自动度量标准【5.评估方法】，并展示了它们与人类判断的强相关性。我们对最先进的LLMs和新颖的提示策略进行了实验，结果显示当前系统仍有很大改进空间------例如，在ELI5数据集上，即使是最好的模型也有50%的时间缺乏完整的引文支持。我们的分析进一步突显了有希望的未来方向，包括开发更好的检索器、推进长文本背景的LLMs，并改进从多个来源综合信息的能力。

总结： 该摘要提出了当今LLMs的优点与缺乏之处，虽能生成连贯的回答【流畅性足】，但这些回答有时会缺乏准确度和可信度。【正确性、引文质量不足】，故因此提出了ALCE这一概念，目的是利用ALCE的新基准测试，通过自动评估机制改进LLMs生成文本的正确性和可验证性，进而提升模型的输出质量。【摘要主要是讲述了ALCE的作用】

ALCE的作用： ALCE能够收集多样化的问题和检索语料库，需要构建从头到尾的系统来检索支持证据并生成带有引用的答案。能够自动评估LLMs生成的带有引用的文本。这个基准的主要目标是提高模型在生成文本时的事实正确性和可验证性。
评估方法： 开发了三个维度的自动度量方法---流畅性、正确性和引用质量，并证明了这些度量与人类评价的强相关性。
实验和发现： 通过对最先进的LLMs和新颖的提示策略进行实验，显示了当前系统在正确性和引用质量方面有很大的改进空间。例如，即使是最好的模型在ELI5数据集上也有50%的生成物缺乏完整的引用支持。【因此控制变量进行论证】

3.Introduction（引言部分）

"大型语言模型（LLMs; Brown等，2020年；OpenAI, 2023年）已经越来越受到欢迎作为信息搜索工具。虽然它们生成引人入胜且连贯的回答，但它们的输出容易产生幻觉，通常包含事实上不正确的信息（Ji等，2023年）。这使得用户更难相信和验证没有支持证据的LLM生成的输出**【没有引文的坏处】。在这项工作中，我们研究了一种新一代的LLMs生成范式，其中我们要求LLMs"提供引文指向一个或数个文本段落以支撑其生成的任何陈述（见图1）。加入引文带来几项好处：（1）用户可以轻松通过提供的引文验证大型语言模型的声明；（2）大型语言模型可以生成忠实于引用段落的文本，这有望提高正确性并减轻幻觉【引文的好处】。多个商业系统已采用了这一模式：Bing Chat2和perplexity.ai3用自然语言回答用户问题，并附带网络页面的引用。中野等人（2021年）；Menick等人（2022年）有相似的动机，但他们主要使用商业搜索引擎和闭源模型进行实验，使得难以评估他们的结果。引用增强的语言模型（Borgeaud等人，2022年；Izacard等人，2022年）在训练和推理过程中都包含检索到的段落，但不能保证对检索到的段落的忠实性，也未明确提供引文。此外，以往的研究大多依赖人类评价（中野等人，2021年；Menick等人，2022年；Liu等人，2023年），这既昂贵又难以复制。我们认为缺乏自动化评估阻碍了这类系统的进步【缺乏自动化评估】**。

我们提出ALCE，这是第一个可复现的基准，用于自动评估有引文支持的LLM生成物 。ALCE假设出一个自然语言问题和一个检索语料库，并需要构建端到端系统来从语料库中检索相关段落，生成问题的响应，并引用相应的支持段落**【ALCE的作用】。我们编译了三个数据集，涵盖不同类型的问题和语料库------ASQA（Stelmakh等，2022），QAMPARI（Ru-bin等，2022）和ELI5（Fan等，2019）------如表1所示。与先前的基准（Lee等，2019；Bohnet等，2022）不同，ALCE评估长文本生成，侧重于自动评估引文质量，并允许为个别陈述引用多个段落。我们设计了三个维度的自动评估方法：流畅度、正确性和引文质量【评估表现】**。具体地，我们使用MAUVE（Pillutla等，2021）来衡量流畅度，为每个数据集提出量身定制的正确性指标，并采用自然语言推理（NLI）模型（Honovich等，2022）来衡量引文质量。我们展示了这三个维度如何共同促成稳健评估，防止系统利用捷径。此外，我们进行了人类评估，并展示了与我们自动评估指标的强相关性。

我们在多个具有最先进LLM和检索器的系统上进行实验，并提出了新颖的提示策略，将检索到的文本合成为文本生成物。尽管所有系统都能提供流畅和连贯的响应，但在正确性和引文质量方面仍有大幅改进的空间**【正确性和引文质量是本文的证明之处】**：例如，在ELI5数据集上，我们的ChatGPT和GPT-4基线约有50%的生成物并未得到完全支持。此外，我们发现（1）采用闭书模型（在不访问任何检索文档的情况下生成答案）并进行事后引用可以获得良好的正确性，但引文质量较差；（2）尽管交互式检索方法（Yao等，2023；Schick等，2023）在何时/检索什么方面提供了更多灵活性，但并不提高在这一具有挑战性的基准上的性能；（3）在更短的文本中总结检索到的段落可以提高正确性，但不能提高引文质量；（4）重新排列多个生成物可提高人类评估测量的引文质量；（5）在上下文中加入更多检索段落对ChatGPT没有帮助，但提高了GPT-4的性能

我们的深入分析突出了构建LLM以生成具有引文的文本面临的三个主要挑战：

（1）检索质量对最终性能至关重要，并有很大的改进空间；

（2）LLM的有限上下文窗口限制了它们可以整合的段落数量；

（3）当前的LLM在上下文中综合多个文档时很难避免被无关文档分散注意力，尽管更好的指导调整会带来显著改进。这些挑战为开发更好地整合检索和LLM的系统提供了有前途的研究方向。

** 总结：** 讲述了LLMs的普及和它存在的问题，以及新的LLMs生成范式。【进一步论述了当前LLMs所存在的问题，以及解决这个问题所采取新方法的必要性】

** LLMs的普及和问题：** 虽然LLMs能生成引人入胜和连贯的回答，但它们的输出倾向于包含不准确的信息，这使得用户难以信任和验证LLM生成的输出。

** 新的生成范式：** 研究一种新的LLMs生成范式，在这种范式中，要求LLMs为它们生成的任何声明提供一到几个文本段落的引用。引入引用带来了几个好处：用户可以轻易验证LLM的声明；LLMs可以生成忠实于引用段落的文本，这有望提高正确性并减轻幻觉。