摘要

大型语言模型（LLM）在推理任务中的性能在很大程度上取决于提示设计，思想链（CoT）和自洽性是增强这种能力的关键方法。然而，这些方法并没有充分利用LLM生成的答案来指导后续响应。本文提出了一种新的提示方法，称为渐进提示（PHP），通过使用以前生成的答案作为提示，逐步引导用户找到正确的答案，实现用户和LLM之间的自动多次交互。PHP与CoT和自一致性正交，因此可以轻松地与最先进的技术相结合，以进一步提高性能。我们在七个基准上进行了广泛而全面的实验。结果表明，PHP在保持高效的同时显著提高了准确性。例如，使用text-davinci-003，我们观察到与复杂CoT相比，贪婪解码的GSM8K改进了4.2%，自一致性的样本路径减少了46.17%。通过GPT-4和PHP，我们在SVAMP上实现了最先进的性能（89.1%→ 91.9%）、GSM8K（92%→ 95.5%）、AQuA（76.4%→ 79.9%）和数学（50.3%）→ 53.9%）。

1 引言

2 相关工作

3 渐进提示Prompting

4 实验

5 结论

6 实现细节

7 不足与未来工作

8 广泛的影响

9 具有不同提示的模型响应

具有不同提示的模型响应。当呈现提示100时，该模型准确地解决了该问题。相反，如果提供的提示与正确答案偏离太远，则模型可能会被误导。例如，当提示为0时，模型计算出未使用的胡萝卜量为80磅，输出的答案为0。