大型语言模型中的提示工程系统综述：技术与应用

摘要

提示工程已成为扩展大型语言模型（LLMs）和视觉语言模型（VLMs）能力的不可或缺的技术。这种方法利用任务特定的指令（称为prompt），在不修改核心模型参数的情况下增强模型效能。与更新模型参数不同，prompt 仅通过给定指令即可引出所需的模型行为，从而实现预训练模型在下游任务中的无缝集成。prompt 可以是提供上下文以引导模型的自然语言指令，也可以是激活相关知识的学习向量表示。这一新兴领域已在诸如问答、常识推理等多种应用中取得了成功。然而，目前仍缺乏对提示工程中各种方法和技术的系统组织与理解。本文通过按应用领域分类，提供对提示工程近期进展的结构化综述以填补这一空白。对于每种提示方法，我们提供一份摘要，详细说明其提示方式、适用任务、所用模型及使用的数据集。我们还探讨了每种方法的优缺点，并附上分类图与总结表格，概述各提示技术所使用的数据集、模型及关键要点。本系统性分析有助于深入理解该快速发展的领域，并通过揭示提示工程中的未解挑战与潜在机会，为未来研究提供指引。

1 引言

提示工程已成为增强预训练大型语言模型（LLMs）和视觉语言模型（VLMs）能力的重要技术。它涉及对任务特定指令（即 prompt）的策略性设计，以在不更改模型参数的前提下引导模型输出。提示工程的重要性体现在其对LLMs和VLMs适应能力的变革性影响上。通过精心构造的指令机制，提示工程使这些模型能够在各种任务和领域中表现出色。这种适应性不同于传统范式，后者往往需要针对特定任务重新训练或进行大规模微调。这正是提示工程的变革性承诺，它突破了人工智能的边界，开启了充满可能性的未来。在持续演变的研究格局中，提示工程不断涌现出创新方法和应用。

提示工程之所以重要，是因为它能够引导模型响应，从而提升LLMs在各个领域的适应性与应用价值。当今提示工程的技术谱系广泛，从基础方法如零样本提示（zero-shot prompting）和少样本提示（few-shot prompting），到更复杂的方式如"代码链式"提示（chain of code prompting）等。提示工程这一概念最初在LLMs中被研究并推广（Liu et al., 2023；Tonmoy et al., 2024；Chen et al., 2023），随后扩展到VLMs（Wu et al., 2023；Bahng et al., 2022）。尽管LLMs和VLMs中关于提示工程的文献丰富，但在以应用为中心的提示工程技术方面，仍存在显著的系统性综述空白。

随着提示工程的迅猛发展，迫切需要一份全面的综述，深入理解当前研究中的应用与进展。本文深入分析提示工程快速演进的格局，涵盖按应用划分的29种提示技术。我们采用系统综述方法，详细探讨各类前沿提示方法的细节，分析其应用场景、所用语言模型及实验中使用的数据集，提供对提示工程发展态势的详尽洞察。同时，我们也探讨这些技术的优劣势，比较其相对有效性，并提出一套完整的分类图，揭示各技术如何在LLMs的广阔能力空间中展开。

从语言生成与问答，到代码生成与推理任务，提示工程使LLMs具备了过去难以想象的能力。通过填补现有文献空白，本综述旨在为研究者和实践者提供有价值的参考，帮助其了解最新发展，深入掌握提示工程不断演进的格局。本文结构安排如下：第2节根据应用领域，介绍从基础到高级的提示工程技术；第3节总结全文并探讨未来研究方向。

2 提示工程

在本节中，我们根据应用领域对 prompt engineering 技术进行了整理，并简要概述了从 zero-shot prompting 到最新进展的 prompt 技术演变过程。

2.1 新任务无需大量训练

Zero-Shot 提示

Zero-shot prompting 为利用大型 LLM 提供了一种范式转变。这种技术 [Radford et al., 2019] 省去了大量训练数据的需求，而是依赖精心设计的 prompt 来引导模型完成新任务。具体来说，模型在 prompt 中接收到任务描述，但没有用于特定输入-输出映射训练的标注数据。然后模型利用其已有知识，根据给定的 prompt 对新任务进行预测。

Few-Shot 提示

Few-shot prompting 向模型提供少量输入-输出示例，以引导其理解给定任务，这与 zero-shot prompting 不同，后者不提供任何示例 [Brown et al., 2020]。即使是少量高质量示例的提供，也已被证明在复杂任务上比不提供示例时有更好的模型表现。然而，few-shot prompting 需要额外的 token 来包含这些示例，对于较长文本输入来说可能变得不可行。此外，prompt 示例的选择和组成会显著影响模型行为，并且诸如偏好高频词汇等偏差仍可能影响 few-shot 的结果。虽然 few-shot prompting 提升了大型预训练模型（如 GPT-3）在复杂任务中的能力，但要实现最优性能并减轻模型偏差的影响，仍需谨慎设计 prompt。

2.2 推理与逻辑

Chain-of-Thought (CoT) Prompting

LLM 在面对复杂推理时常常表现不佳，限制了其潜力。为弥合这一差距，[Wei et al., 2022] 提出了 Chain-of-Thought (CoT) prompting，这是一种促进连贯、逐步推理过程的 prompting 技术。其主要贡献在于提出并探索了 CoT prompting，展示了该技术在引导 LLM 生成结构化且有逻辑的响应方面相较传统 prompt 更具成效。通过一系列实验，作者展示了 CoT prompting 的独特优势，强调其引导 LLM 沿着逻辑链推理的能力。例如，在 prompt 中展示多步骤数学文字题的推理过程和最终答案，模仿人类如何将问题分解为逻辑中间步骤。作者在使用 CoT prompt 对 PaLM 540B 进行实验时，在数学和常识推理基准测试中取得了 90.2% 的准确率，达到了 state-of-the-art 的水平。

自动思维链提示

高质量 CoT 示例的手动构建既耗时又不理想。[Zhang et al., 2022] 引入了 Auto-CoT，通过自动使用 "Let's think step-by-step" 的 prompt 来生成推理链，从而对 LLM 进行指导。考虑到单个生成链可能存在错误，Auto-CoT 通过多样化采样增强鲁棒性。它对多个问题进行采样，并为每个问题生成多个不同的推理链，从而构建出最终的示例集。这种自动化的多样性采样减少了错误，并提升了 few-shot 学习性能，省去了人工构建推理链的繁琐工作。Auto-CoT 在使用 GPT-3 时，在算术和符号推理任务上的平均准确率分别提高了 1.33% 和 1.5%，超过了 CoT 模式。

自洽性