LLM prompt提示工程调试方法经验技巧汇总

现在接到一个LLM模型任务，第一反应就是能不能通过精调prompt来实现，因为使用prompt不需要训练模型，只需输入指令就可以实现和LLM的交互。按照以往经验，不同的prompt对模型输出影响非常大，如果能构造一个好的prompt，往往可以达到事半功倍的效果。下面总结了目前我经常使用的一些构建prompt的技巧。

1. prompt要素

一个prompt主要有如下一些要素：

指令：想要模型执行特定任务的描述。
上下文 ：包含外部信息（如知识库）或额外的上下文信息。
输入数据 ：用户输入的内容或问题。
输出指示：指定输出的类型或格式。可以不指定，因为很多模型其实性能有限，不一定按照你指定的格式输出。

这里给出一篇prompt构造的参考文献：https://github.com/mattnigh/ChatGPT3-Free-Prompt-List

其遵循CRISPE提示框架:

Capacity and Role : What role (or roles) should ChatGPT act as?
Insight : Provides the behind the scenes insight, background, and context to your request.
Statement : What you are asking ChatGPT to do.
Personality : The style, personality, or manner you want ChatGPT to respond in.
Experiment: Asking ChatGPT to provide multiple examples to you.

给个例子：

2. 设计prompt通用技巧

2.1 关于prompt的调试经验

从简单的提示词开始，不断迭代和实验，比如添加上下文，或者将任务拆解

明确指令，一般需要将指令放在开头，并用清晰的分隔符区分（在调试过程发现，LLM对分隔符会有理解能力）

避免不精确，使用3到5句话就应该把任务说清楚

由易到难尝试使用prompt技术，如从zero-shot到few-shot甚至到最后的SFT

2.2 模型设置

目前一般的LLM都提供了和模型参数相关的一些接口，可以控制模型生成的多样性或者最大上下文长度。主要是调整以下的两个参数：

Temperature：范围是0-1，简单来说，temperature越小，模型输出越确定（准确）。temperature越大，返回结果更随机，也就是说这可能会带来更多样化或更具创造性的产出。在实际应用方面，对于质量保障（QA）等任务，我们可以设置更低的 temperature 值，以促使模型基于事实返回更真实和简洁的结果。对于诗歌生成或其他创造性任务，你可以适当调高 temperature 参数值。

Top_p：使top_p（与 temperature一起称为核采样的技术），可以控制模型返回结果的真实性。如果你需要准确和事实的答案，就把参数值调低。如果你想要更多样化的答案，就把参数值调高一些。

一般建议是改变其中一个参数就行，不用两个都调整。

2.3 prompt技术

2.3.1 Zero shot

零样本prompt，说白了就是想让LLM完成某个任务但是却不给LLM参考的样例，直接让模型生成答案。这种方法往往比较简单，仅仅使用一两句话描述任务和问题即可。

2.3.2 Few shot

这个与Zero shot对应，Few shot 在构建提示词的时候会给模型一些参考的样例。个人认为Few shot是一种非常有效的提示方式，模型可以从你给出的样例中学习到特定的范式或者知识，让模型可以更好地输出你想要的回复。

当然，few shot也有一些局限性：

多数标签的偏见(majority label bias)：few-shot例子中所提供的标签如果分布不平衡，则会严重影响到测试任务。这个非常好理解：是传统的不平衡学习(imbalanced learning)在prompt上的具体体现。

近期偏见(recency bias)：模型倾向于为测试样本输出最近看到的few-shot样本。这个听上去有点像灾难遗忘，即模型更喜欢记住最近输入的样本信息。

公共token偏见(common token bias)：模型倾向于考虑那些出现次数较多的token。这个也比较好理解。因为大模型本质上就是统计模型，当然倾向于出现次数多的那些词。