提示词攻击

【论文速读】Optimization-based Prompt Injection Attack to LLM-as-a-JudgeLLM-as-a-Judge 利用一个大型语言模型（LLM）从一组候选答案中选择给定问题的最佳回答。LLM-as-a-Judge 有许多应用，例如 LLM 驱动的搜索、带有 AI 反馈的强化学习（RLAIF）和工具选择。在这项工作中，提出了 JudgeDeceiver，这是一种针对 LLM-as-a-Judge 的基于优化的提示注入攻击。JudgeDeceiver 将一个精心设计的序列注入到攻击者控制的候选回答中，使得 LLM-as-a-Judge 无论其他候选回答是什么，都会为攻击者选择的问题选择该候选

OpenAI 的 GPTs 提示词泄露攻击与防护实战：防御卷（一）前面的OpenAI DevDay活动上，GPTs技术的亮相引起了广泛关注。随着GPTs的创建权限开放给Plus用户，社区里迅速涌现了各种有趣的GPT应用，这些都是利用了Prompt提示词的灵活性。这不仅展示了技术的创新潜力，也让人们开始思考如何获取他人的GPT提示词，以及如何保护自己的提示词不被别人拿去使用。

文献研读｜Prompt窃取与保护综述本文介绍与「Prompt窃取与保护」相关的几篇工作。首先我们来区分一下两种不同的prompt形式：（图片来源：工作[5]）

我是有底线的