TAPO: Task-Referenced Adaptation for Prompt Optimization

文章目录

题目

TAPO:用于即时优化的任务参考适应

论文地址：https://arxiv.org/abs/2501.06689

项目地址：https://github.com/Applied-Machine-Learning-Lab/TAPO

摘要

提示工程可以显著提高大型语言模型(LLM)的性能，自动提示优化(APO)由于手动提示设计的费时费力而备受关注。然而，APO的许多现有工作忽略了特定任务的特征，导致提示缺乏领域特异性，不太适合特定任务的优化。在本文中，我们介绍了TAPO，一个多任务感知的提示优化框架，由三个关键模块组成。首先，提出了一个任务感知的度量选择模块来增强特定于任务的提示生成能力。其次，我们提出了一个多指标评估模块，从多个角度联合评估提示。第三，引入了一个基于进化的优化框架，用于自动提示细化，这提高了跨各种任务的适应性。在六个数据集上的大量实验证明了我们方法的有效性，并且我们的代码是公开可用的1。

索引术语---提示工程、自动提示优化、大型语言模型、多任务学习

简介

提示工程在提高大型语言模型(LLM)的性能方面起着至关重要的作用[1]。然而，手动构造提示既费时又费力。因此，自动提示优化[2]作为一种更系统和有效的方法被引入。在目前的方法中，TEMPERA [3]等模型利用强化学习来动态适应和优化提示。贝叶斯优化技术为提示提炼提供了一个概率框架，而incontext learning将示例直接集成到提示中，如Voke-k [4]和Auto-CoT [5]等模型所示。这些方法说明了向更复杂的快速工程策略发展的趋势。

然而，这些方法面临两个主要的限制。首先，当前的即时评估技术主要依赖于单一指标，这阻碍了全面的评估。例如，prompt breader[6]和APE [2]采用单一的相似性度量来进行适应性测量，这限制了他们在逻辑上改进与规划相关的任务的能力。其次，缺乏多样的度量标准降低了它们的通用性，限制了它们对多任务优化的适应性。例如，GATE [7]优化了角色扮演任务的提示，但对更广泛的任务表现出有限的可扩展性。类似地，尽管某些专注于机器翻译的提示策略[8]可以提高了语言能力，但他们在其他基本语言任务中的效率，如交流和推理，却降低了。

为了解决上面列出的限制，我们提出了任务参考的提示优化适应(TAPO)，这是一个任务感知框架，它动态选择任务相关的度量，并自动执行任务自适应提示评估和生成过程，以促进提示进化。该框架由三个关键部分组成。动态度量选择模块使LLM能够根据不同的任务选择相关的度量，并根据它们的优先级分配权重，为后续阶段的任务感知即时评估建立适合任务的评估度量。在基于进化的提示优化模块中，我们使用系统的选择机制来迭代地选择和变异高性能的提示，不断地改进它们以提高特定任务的性能。综上所述，本文的主要贡献如下。

我们提出了任务参考适应即时优化(TAPO)，这是一种创新的方法，可以动态生成特定于任务的策略，以增强多任务性能，并促进不同任务之间的通用性。
开发了新颖的任务感知指标选择和即时评估模块，以指导LLM生成更符合任务要求的结果。
在六个公共数据集上进行的大量实验验证了TAPO模型组件的重要性及其在不同任务中的通用性。

方法

在本节中，我们将介绍TAPO框架，这是一种动态的自我改进方法，通过基于每个任务的独特特征选择和加权评估指标来优化提示，从而提高特定任务的绩效。

框架概述

TAPO的核心创新在于其多目标优化，平衡了准确性、流畅性和多样性等标准。如图1所示，TAPO将LLMs集成到关键组件中，包括任务识别、度量选择和提示优化。通过选择适当的评估指标和迭代，动态适应各种任务通过自适应反馈循环优化提示，从而提高特定任务的性能。这个过程从任务分类开始，LLM识别任务的类型。然后，TAPO选择相关的指标，如相似性和复杂性，来指导提示设计和评估。高性能提示通过变异和选择进行迭代提炼，确保持续改进。这种适应过程使TAPO在不同的任务中灵活有效。

动态度量

标准选择不同的任务需要不同的评估标准，固定的度量标准通常无法捕捉细微的需求，如精确性、创造性或逻辑一致性。TAPO通过动态选择和加权特定任务的评估指标来优化提示。该过程从任务分类开始，其中LLM驱动的模块识别任务类型(例如，推理、语言、现实世界的问题)并选择相关的度量。对于事实性任务，相似性保证了准确性，而创造性任务强调多样性以避免重复。复杂性等指标评估流畅性，而困惑和逻辑一致性对于高级推理、对话和决策支持系统至关重要。这种方法使TAPO能够适应各种任务，确保多方面的最佳性能。

任务感知

提示评估为了评估和适应各种任务的提示，我们提出了一个具有两个组件的提示评估模块:度量融合和动态权重调整。在选择评估指标后，TAPO将它们组合成一个最终得分函数，以全面评估任务的性能。评分函数定义为:其中P是优化的提示，wi是第I个指标的权重，Mi§表示第I个指标的分数，S§表示n个指标的总分数。TAPO整合了相似性、多样性、困惑性和复杂性作为衡量标准，以平衡准确性、创造性和流畅性。根据任务要求调整每个指标的权重，为精确任务区分相似性的优先级，为创造性任务增强多样性和迷惑性。

基于进化的即时优化

传统的即时优化方法常常停滞在局部最优，限制了它们探索更好替代方案的能力。TAPO通过进化策略、利用突变和持续改进的选择来提炼提示，从而解决了这一限制。在初始化期间，TAPO通过将随机思维方式与问题描述相结合来生成提示，这些提示随后由LLM进行处理。在自我进化过程中，从预定义的策略库中选择小的变化，如"将任务分成步骤"，以与候选提示相结合。然后，这些组合通过变异算子进行处理，以生成进化的提示。在每次迭代期间，使用上面提到的多指标评分函数进行性能评估。TAPO应用锦标赛选择来过滤候选人，确保改善特定任务的结果。这个迭代过程持续多个周期，动态地改进提示，直到它们达到期望的性能或达到预定义的迭代限制，从而确保持续的优化。

图一。TAPO的框架。对于动态指标选择，我们为LLM提供了一个任务数据集示例，以选择指标并基于优先级分配权重，从而为任务感知的即时评估创建特定于任务的评估指标。我们采用锦标赛选择算法进行基于进化的提示优化，以选择和变异表现更好的提示，为候选人添加适合任务的提示。

实验

在这一部分中，我们提出了实验设置，并概述了我们的实验设计，以解决以下研究问题:

RQ1:与最先进的方法相比，我们的模型表现如何？
RQ2:我们的模型如何有效地适应不同类型的任务？
RQ3:我们的框架在开源LLM之间保持一致的性能吗？
RQ4:单个组件对整体性能有什么影响？

实验设置数据集

为了评估我们的方法，我们使用了一系列集中于数学推理和多任务的数据集问题求解，包括用于算术推理的AddSub [9]、MultiArith [10]和SingleEQ [11]，以及用于多步问题求解的SVAMP [12]和GSM8K [13]。此外，我们纳入大工作台硬(BBH) [14]，一个由23个不同的和具有挑战性的任务组成的数据集，包括逻辑推理和常识理解，以确保全面的评估。

基线。我们将TAPO与以下基线方法进行比较:(a)零射击CoT [15]，它以零射击的方式生成推理步骤；(b) APE [2]，一种从基本提示初始化多个候选提示并基于开发集性能选择最佳提示的方法；© PE2 [16]，一种两步提示方法，通过评估迭代地生成和改进候选提示；以及(d)prompt breader(PB)[6]，这是一个自参考优化框架，通过利用重新描述来改进下游任务性能，从而优化提示。

实验细节。在我们的实验中，我们利用了以下语言模型:GPT-3.5-turbo-0125 [17]，GPT-4o-2024-08-06 [18]，以及Llama3-8B-Instruct [19]。前两个模型通过OpenAI API访问，而Llama3使用NVIDIA API部署。

为了确保任务之间的一致性，温度被设置为0.1。对生成文本的评估采用相似性、流畅性、多样性和复杂性等指标。相似性使用余弦相似性进行评估，余弦相似性通过all-MiniLM-L6-v2 [20]模型计算，以测量生成文本和参考文本之间的语义对齐。流利性通过从gpt2-large [21]模型中得出的困惑分数来评估，其中较低的值表示更连贯和语法准确的输出。多样性通过计算独特n元语法的比例来量化词汇的多样性，分数越高反映重复次数越少。通过分析文本长度、句法结构和逻辑推理步骤来评估复杂性。

"*"表示显著性水平检验p < 0.05，次优结果用下划线标出。

表1 GPT-3.5涡轮和GPT-4O在不同数据集上的性能比较(相似性得分)。

总体性能(RQ1)

TAPO通过动态选择和加权特定于任务的指标，始终优于基线方法。在算术推理任务中，如AddSub和MultiArith，TAPO在GPT-3.5-turbo中分别实现了88.15%和89.26%的相似性得分，证明了与CoT [15]和APE [2]等静态方法相比的明显优势。对于多步推理任务，如GSM8K，TAPO在GPT-4o上达到了88.40%，仅差88.61%的最好成绩。在BBH，TAPO在GPT-4o中达到80.51%，略微超过第二好的方法79.90%。

虽然TAPO并不总是获得最高分，例如在SVAMP中，它在GPT-3.5-turbo上达到92.72%，而在94.38%，但它一直名列最佳方法之中，在各种任务中表现出很强的适应性。总结在表1中的这些结果强调了TAPO在为广泛的语言和推理任务优化特定任务提示方面的有效性。

特定任务提示性能(RQ2)

表二不同提示优化方法的效果。

TAPO为特定任务定制提示的能力显著增强了不同领域的性能，例如如表二所示。对于像AddSub这样的数学推理任务，TAPO强调推理和计算步骤，提供了一种定制的方法，优于zero-shot CoT等通用方法，后者使用通用提示"让我们一步一步地思考"。对于翻译任务，TAPO擅长使用系统的错误分类和迭代反馈框架，而不是结构化程度较低的APE或PromptBreeder方法。这种针对特定任务的设计通过根据每个任务的独特要求调整提示，提高数学和翻译错误检测任务的清晰度和性能，确保TAPO始终提供卓越的结果。

开源LLM性能(RQ3)

图2。与Llama3-8B-Instruct的性能比较。

在评估开源大型语言模型(如Llama3-8B-Instruct)时，即使在需要精确格式化和多步推理的任务上，TAPO也始终优于基线方法，包括科特和PE2。如图2所示，虽然Llama3-8B-Instruct难以在MultiArith和AddSub等数据集上保持正确的输出格式，但TAPO使该模型能够实现明显更好的结果。在像GSM8K这样强调多步推理的任务中，TAPO进一步提高了LLM的性能，缩小了与最先进模型的差距。平均而言，TAPO在数学推理任务中的相似性得分比科特提高了10.2%，比PE2提高了6.2%。这些结果表明，TAPO的优化甚至在开源LLM中也提高了性能，使其在不同的模型架构中有效。

消融研究(RQ4)

表三GPT-3.5涡轮增压TAPO消融研究(相似性得分)。

我们进行了一项消融研究来评估TAPO的关键组成部分，如表III所示，重点是去除即时优化(PO)和多指标评分(MS)。在w/o PO变体中，我们用通用方法替换了特定任务提示的优化，这导致了所有数据集的性能下降，突出了TAPO的优化提示生成的重要性。同样，在w/o MS变体中，使用单指标方法而不是多指标方法导致了显著的性能下降，特别是在SigleEQ和MultiArith等数据集上，突出了多指标评估在改善特定任务结果方面的关键作用。