Chain of Agents（COA）：大型语言模型在长文本任务中的协作新范式

随着人工智能技术的飞速发展，大型语言模型（LLM）在自然语言处理领域的应用日益广泛。然而，LLM在处理长文本任务时仍面临诸多挑战。传统的解决方案，如截断输入上下文或使用基于检索增强生成（RAG）的方法(面向企业RAG（Retrieval Augmented Generation）系统的多维检索框架)，往往存在信息丢失或检索不准确的问题。为了更有效地处理长文本任务，Chain of Agents（CoA）框架应运而生。CoA通过多个LLM的协作，实现了对长文本的高效处理，为LLM在长文本任务中的应用提供了新的思路。

一、问题背景

LLM在处理长文本时面临的挑战主要源于其有限的上下文窗口大小。当输入文本超过模型的上下文窗口时(RAG与长上下文LLM（Long-Context LLM）：一场AI领域的对决)，模型可能无法捕捉到所有相关信息，导致性能下降。为了解决这个问题，研究人员提出了多种方法，但都存在各自的局限性。

截断输入上下文：这种方法简单直接，但会丢失大量信息，特别是当关键信息位于被截断的部分时。
基于RAG的方法：该方法将输入文档分成多个块，并根据用户查询检索相关的"top-n"块作为上下文。然而，检索器的准确性直接影响最终结果的准确性，且当关键信息分散在多个块中时，RAG可能无法有效捕捉到所有相关信息。

二、Chain of Agents框架介绍

CoA框架通过引入多个LLM作为工作代理（Worker Agents）和一个主代理（Manager Agent），实现了对长文本任务的高效处理（AI Agent 框架综述：智能自主性的崛起与多领域应用）。CoA框架的核心思想是将长文本分成多个块，并让每个工作代理处理一个块，然后将处理结果传递给下一个工作代理，形成一条推理链。最后，主代理根据推理链中的信息合成最终响应。

工作代理（Worker Agents）

工作代理是CoA框架中的基本单元。每个工作代理负责处理一个文本块，并根据用户查询和前一个工作代理（如果存在）传递的信息收集相关证据。工作代理的输出是一个包含收集到的证据和可能答案的通信单元（Communication Unit）。这些通信单元在代理之间传递，形成一条完整的推理链。

主代理（Manager Agent）

主代理是CoA框架中的最终决策者。它接收来自最后一个工作代理的通信单元，并根据其中的信息和用户查询合成最终响应。主代理的任务是整合推理链中的信息，并生成一个清晰、准确的答案。

三、CoA框架的工作流程

CoA框架的工作流程包括以下几个步骤：

输入处理：将长文本分成多个块，并为每个块分配一个工作代理。
工作代理处理：每个工作代理处理其分配的文本块，并根据用户查询和前一个工作代理（如果存在）传递的信息收集相关证据。
通信单元传递：工作代理将处理结果（即通信单元）传递给下一个工作代理。这个过程是顺序进行的，而不是并行的。
主代理合成响应：主代理接收来自最后一个工作代理的通信单元，并根据其中的信息和用户查询合成最终响应。

四、CoA框架的优势

CoA框架在处理长文本任务时具有以下优势：

高效处理长文本：CoA框架通过将长文本分成多个块并并行处理（虽然工作代理之间的通信是顺序的，但每个工作代理的处理是独立的），显著提高了处理速度。同时，由于每个工作代理只处理一个块，因此可以避免因上下文窗口过大而导致的信息丢失问题。
准确捕捉相关信息：CoA框架通过形成推理链，能够更准确地捕捉分散在多个块中的相关信息。每个工作代理都根据其分配的块收集证据，并将这些信息传递给下一个工作代理。这样，即使关键信息分散在多个块中，CoA框架也能够有效地捕捉到它们。
灵活性高：CoA框架可以适应不同的任务和数据集。通过调整工作代理的数量和类型，以及主代理的合成策略，CoA框架可以灵活地应对各种长文本任务。

五、实验验证

为了验证CoA框架的有效性，研究人员在多个数据集上进行了实验。这些数据集包括问答（Q&A）、摘要和代码补全等任务。实验结果表明，CoA框架在所有这些任务上都取得了显著优于基线方法的性能。

问答任务：在HotpotQA、MusSiQue、NarrativeQA、Qasper和QuaLITY等问答数据集上，CoA框架的性能显著优于Vanilla（截断输入上下文）和RAG方法。特别是在NarrativeQA数据集上，CoA框架的性能提升尤为明显。
摘要任务：在QMSum、GovReport和BookSum等摘要数据集上，CoA框架也取得了显著优于基线方法的性能。特别是在BookSum数据集上，CoA框架的性能提升达到了一个新的高度。
代码补全任务：在RepoBench-P代码补全数据集上，CoA框架同样表现出色。它不仅能够准确地补全代码片段，还能够根据上下文生成有意义的代码注释。

六、CoA框架的局限性及未来展望

尽管CoA框架在处理长文本任务时取得了显著成效，但仍存在一些局限性。例如，当文本块之间的关联性很强时，CoA框架可能无法有效地捕捉到这种关联性。此外，CoA框架的性能还受到工作代理和主代理之间通信效率的影响。

为了克服这些局限性并进一步提高CoA框架的性能，未来的研究可以从以下几个方面入手：

加强工作代理之间的通信：通过引入更高效的通信机制和策略，加强工作代理之间的信息共享和协作。这有助于提高CoA框架在处理具有强关联性文本块时的性能。
优化主代理的合成策略：通过引入更先进的自然语言处理技术和算法，优化主代理的合成策略。这有助于提高CoA框架在生成最终响应时的准确性和流畅性。
拓展CoA框架的应用范围：将CoA框架应用于更多类型的长文本任务和数据集上，以验证其泛化能力和适用性。同时，也可以探索将CoA框架与其他先进技术相结合的可能性，以进一步提升其性能。

Chain of Agents（CoA）框架为大型语言模型在处理长文本任务时提供了新的思路和方法。通过引入多个工作代理和一个主代理的协作机制，CoA框架实现了对长文本的高效处理。实验结果表明，CoA框架在问答、摘要和代码补全等任务上都取得了显著优于基线方法的性能。尽管仍存在一些局限性，但随着研究的深入和技术的不断发展，CoA框架有望在未来得到更广泛的应用和推广。

paper:https://arxiv.org/abs/2406.02818v1