论文 | PROMPTING GPT-3 TO BE RELIABLE

这篇题为《让GPT-3更可靠的提示设计》（Prompting GPT-3 to be Reliable）的论文在ICLR 2023大会上发表，作者来自美国马里兰大学和微软公司，旨在通过对GPT-3提示设计的系统研究，探索提升GPT-3在现实应用中的可靠性。文章将"可靠性"分解为四个主要方面：广泛性（Generalizability） 、社会偏见（Social Biases） 、校准（Calibration）和事实性（Factuality）。论文的核心贡献在于通过少样本提示（Few-shot Prompting）设计，增强GPT-3在这四个方面的表现，并提供了一种可操作的策略以帮助用户更可靠地使用GPT-3。以下将从各个方面详细解析论文内容。

1. 论文的背景与动机

GPT-3作为一种大型语言模型（LLM），在自然语言处理任务中表现出极强的能力，尤其是在无监督数据和大规模模型参数的基础上，通过适当的提示可以实现所谓的"涌现能力"（Emergent Abilities）。这种提示法，不需要耗费大量标注数据，能够直接影响模型的输出预测。但现有研究主要集中在GPT-3特定任务表现，而忽视了它的可靠性问题。论文指出，在现有评价中，GPT-3仍存在偏见、错误信息以及过时信息的问题。为解决这一问题，作者尝试通过少样本提示设计，提升GPT-3的各方面可靠性，以期应用于更广泛的实际场景。

2. 论文结构与研究框架

论文首先提出了四大可靠性评估维度，并与ML安全性的四个基本问题相对应，包括：识别和适应变化的数据分布（广泛性）、减少对特定群体的偏见（社会偏见）、校准输出的概率（校准）和更新事实知识（事实性）。每个方面都通过实验验证GPT-3的现状及其在适当提示设计下的改进。

3. 可靠性维度与实验分析

3.1 广泛性（Generalizability）

论文首先关注GPT-3在广泛性方面的表现，即模型应能够适应不同分布的数据，而不会因为训练数据的特定分布而产生偏向。为了测试GPT-3在分布转移、扰动和虚假相关方面的鲁棒性，作者设计了相关实验并采用多种数据集，包括MRQA、AdvGLUE和HANS，评估GPT-3是否能够在分布转移的场景下保持较高的性能。实验结果表明，与较小规模的有监督模型如RoBERTa相比，GPT-3的少样本提示能够更好地适应不同分布的数据，在所有设置下表现出更小的泛化差距。

实验结论：少样本提示能够有效提升GPT-3的广泛性，尤其是在分布转移、文本扰动和虚假相关的挑战测试中表现优异。与其他模型相比，GPT-3对训练数据的依赖性更低，展示了更强的分布适应能力。

社会偏见方面，研究者重点关注GPT-3在性别偏见、种族偏见等方面的表现。论文利用了WinoBias数据集，测试模型在使用特定性别代词时是否会偏向于社会常见的职业刻板印象。例如，GPT-3在性别代词的指代任务中，若模型在提示中包括偏向性内容，GPT-3的输出更倾向于延续这种偏见。研究表明，通过在提示中随机排列示例或将支持和反对的示例分布均衡，可以减少模型的偏见。

另外，在BBQ数据集上，作者发现若提示包含平衡的性别、种族等信息，模型的偏见程度显著降低，甚至在加入自然语言的干预语句后，GPT-3的预测更加公平。

实验结论：提示中的样本分布和顺序对GPT-3的社会偏见有显著影响。添加中立语句可以有效减少偏见。作者提出，在实际应用中，应尽量采用平衡提示设计，以减少模型的偏见输出。

3.3 不确定性校准（Uncertainty Calibration）

对于可靠性而言，模型的置信度校准也是一个关键指标，尤其是在高风险应用中。校准指的是模型预测概率是否能够准确反映预测的正确性。研究发现，通过设置适当的提示，GPT-3在回答问答数据集（如NQ和HotpotQA）的问题时能够更好地校准其输出概率，与有监督的DPR-BERT相比具有更高的校准性能。

此外，实验表明，在提示中增加示例数可以提高准确性，但不一定提升校准效果。因此，在提示设计中不仅要考虑提示的数量，还要关注提示内容与问题的相关性。

实验结论：通过GPT-3的自信度（Self-Confidence）和语言模型概率（Language Model Probability），可以在不使用后处理校准的情况下获得较为理想的校准效果。这一方法尤其适用于测试集分布不同的场景中。

3.4 事实性（Factuality）

在知识更新方面，GPT-3的参数中固有大量知识，但这些知识可能不够准确或与当前事实不符。论文探讨了通过提示如何更新GPT-3的知识，并使其能够生成准确的信息。研究发现，通过提示GPT-3回答特定实体的"反事实"问题，可以引导模型产生更新后的答案而非其记忆中的答案。

在另一项开放域问答实验中，论文展示了通过添加检索信息到提示中，可以显著提升GPT-3的回答准确性。这表明，结合外部知识检索和少样本提示，可以更好地确保模型输出的事实性。

实验结论：GPT-3在提示设计下能部分更新记忆中的知识，但仍需进一步探索更好的知识更新策略。