开发一个AI婚礼照片应用时，如何编写和调整提示词🧣

开发一个AI婚礼照片应用时，如何编写和调整提示词（prompts）是确保AI模型生成高质量、符合预期结果的关键。根据提供的资料，我们了解到少样本演示（in-context demonstrations，简称demos）在提示词中的位置（DPP，Demos' Position in Prompt）对大型语言模型（LLMs）的性能、准确性和预测稳定性有显著影响。虽然资料未直接提供婚礼照片应用的提示词模板，但其揭示的原理和最佳实践对于设计此类应用具有重要的指导意义。

以下是根据资料中的见解，关于如何为AI婚礼照片应用编写和调整提示词的建议：

1. 理解提示词的结构和演示放置偏置 (DPP Bias)

首先，要理解提示词通常由系统指令（system prompt）和用户消息（user message）两部分构成。在其中嵌入少量演示示例（demos）以实现上下文学习（in-context learning）时，这些演示的放置位置至关重要，因为存在DPP偏置现象。

资料中探讨了四种典型的演示放置配置（DPP）：

系统提示词开头 (ssp - Start of System Prompt) ：演示块放在系统消息的最开始。
系统提示词结尾 (esp - End of System Prompt) ：演示块放在系统消息的末尾，用户查询之前。
用户消息开头 (sum - Start of User Message) ：演示块插入到用户消息的开头，实际查询文本之前（这是许多LLM的默认ICL位置）。
用户消息结尾 (eum - End of User Message) ：演示块附加在用户消息的最末尾，查询之后。

2. 编写提示词的关键要素

一个有效的AI婚礼照片应用提示词，应包含以下核心要素：

明确的系统指令（System Prompt） ：
- 定义AI的角色：例如，"您是专业的AI婚礼照片编辑助手，专注于美化和优化婚礼照片。"
- 定义任务和输出格式：明确AI需要执行的任务（例如，修饰肤色、调整光线、移除背景元素、风格迁移）以及期望的输出格式（例如，直接生成修改后的照片，或者提供详细的编辑步骤指导）。
- 限制性条件（可选） ：例如，"只专注于婚礼照片相关的编辑，不添加与婚礼主题无关的元素。"
相关的演示示例（Demos） ：
- 高质量和多样性：选择能代表不同编辑需求和预期结果的少量高质量婚礼照片示例。
- 清晰的输入-输出对：每个示例应包含：
  - 原始婚礼照片（输入）
  - 用户的编辑请求/意图（指令） ：例如，"将背景虚化，突出人物。" "移除左侧的多余人物。" "将照片的色调调整为复古暖色。"
  - AI处理后的期望输出（输出） ：可以是实际处理后的示例图，或者是对期望结果的详细文字描述。
- 数量：研究中通常使用五个演示示例。
用户消息（User Message） ：
- 实际的用户婚礼照片（输入） 。
- 具体的编辑请求：例如，"请将这张我和新娘的合影中的天空颜色调得更蓝，并让新娘的肤色看起来更自然、更明亮。"

3. 如何调整和优化提示词（尤其是演示放置）

资料明确指出，演示放置是影响模型性能的关键因素。为了优化你的AI婚礼照片应用，你需要：

优先考虑系统提示词开头 (ssp) 或系统提示词结尾 (esp) 作为起始点。

研究发现，将演示放在提示词的开头（ssp或esp）通常能带来更一致的准确性改进和更高的预测稳定性，尤其对于分类和问答任务。对于你的婚礼照片应用，这可能意味着在处理分类任务 （例如，判断照片类型、识别瑕疵类型）或结构化编辑任务（例如，按照特定风格模板进行编辑）时，这些位置会表现更好。

ssp模板示例：

xml 复制代码

<system> 使用以下示例作为如何编辑婚礼照片的指南 <DEMOS_PLACEHOLDER>
您是专业的AI婚礼照片编辑助手，专注于美化和优化婚礼照片。请根据用户的请求，对提供的照片进行编辑或给出详细的编辑方案。
<end_of_system>
<user> <QUESTION_PLACEHOLDER> <end_of_user>

esp模板示例：

xml 复制代码

<system> 您是专业的AI婚礼照片编辑助手，专注于美化和优化婚礼照片。请根据用户的请求，对提供的照片进行编辑或给出详细的编辑方案。
使用以下示例作为如何编辑婚礼照片的指南 <DEMOS_PLACEHOLDER>
<end_of_system>
<user> <QUESTION_PLACEHOLDER> <end_of_user>

避免将演示放在用户消息的结尾 (eum) 。
- 研究显示，将演示放在用户消息的末尾 (eum) 会导致预测的波动性（Prediction Change）大幅增加，并且通常不会提高正确性。对于像婚礼照片编辑这样对结果稳定性要求较高的应用，应尽量避免这种放置方式。
根据模型大小和任务类型进行调整。
- 小型模型（例如1.5B - 8B参数）通常更倾向于将演示放在系统提示词的开头（ssp, esp）。
- 大型模型（例如LLAMA3 70B）在某些任务上可能对不同的位置表现出偏好，例如在用户消息开头 (sum) 表现更好。
- 生成式任务（如摘要生成，这与你的照片"编辑"或"生成"新照片可能类似）对位置变化最为敏感，eum位置的预测变化率甚至可以接近100%。这意味着在生成照片或编辑照片时，你需要特别注意演示的位置。
进行系统性评估和实验。
- 由于"最佳"位置并非普遍适用，而是任务和模型特定的，因此你需要为你的AI婚礼照片应用中的具体任务（例如，人像美化、背景替换、照片风格化等）进行 A/B 测试。
- 测试不同的DPP配置：尝试ssp、esp、sum这三种配置，并量化它们的表现，例如通过用户反馈、自动评估指标（如图像相似度指标，如果可行）来衡量"照片编辑质量"和"用户满意度"。
- 度量指标：可以参考资料中提出的"准确性变化（Accuracy Change）"和"预测变化（Prediction Change）"来评估不同位置的效果。对于图像任务，预测变化可以理解为"编辑结果一致性"或"编辑风格漂移度"。

4. 实践建议

从ssp或esp开始 ：对于你的AI婚礼照片应用，首先尝试将演示示例放置在系统提示词的开头（ssp）或系统提示词的结尾（esp） 。
明确的系统指令：在系统提示词中清楚地定义AI的角色、功能和输出要求。
精选演示示例：提供与婚礼照片编辑任务高度相关且多样化的示例，每个示例都包含原始照片、编辑请求和理想输出。
迭代测试：根据你所使用的AI模型和具体的编辑任务，系统地测试不同的演示放置位置，并收集用户反馈或使用评估指标来优化提示词。
为不同子任务定制提示词：如果你的应用包含多种功能（例如，人像修饰、背景更改、风格转换），你可能需要为每个子任务设计和优化不同的提示词结构和演示放置策略。

通过这些方法，你可以更好地利用上下文学习的能力，为你的AI婚礼照片应用创建更健壮、更有效的提示词。