提示词攻击

DaLi Yao7 天前
人工智能·算法·语言模型·自然语言处理·提示词攻击·ai安全·注入攻击
【论文速读】Optimization-based Prompt Injection Attack to LLM-as-a-JudgeLLM-as-a-Judge 利用一个大型语言模型(LLM)从一组候选答案中选择给定问题的最佳回答。LLM-as-a-Judge 有许多应用,例如 LLM 驱动的搜索、带有 AI 反馈的强化学习(RLAIF)和工具选择。在这项工作中,提出了 JudgeDeceiver,这是一种针对 LLM-as-a-Judge 的基于优化的提示注入攻击。JudgeDeceiver 将一个精心设计的序列注入到攻击者控制的候选回答中,使得 LLM-as-a-Judge 无论其他候选回答是什么,都会为攻击者选择的问题选择该候选
Aitrainee9 个月前
人工智能·gpts·提示词攻击·prompts·提示词防御·提示词泄露
OpenAI 的 GPTs 提示词泄露攻击与防护实战:防御卷(一)前面的OpenAI DevDay活动上,GPTs技术的亮相引起了广泛关注。随着GPTs的创建权限开放给Plus用户,社区里迅速涌现了各种有趣的GPT应用,这些都是利用了Prompt提示词的灵活性。这不仅展示了技术的创新潜力,也让人们开始思考如何获取他人的GPT提示词,以及如何保护自己的提示词不被别人拿去使用。
_Meilinger_10 个月前
prompt·prompt攻击·提示词攻击·prompt保护·提示词保护·promptbase·promptcare
文献研读|Prompt窃取与保护综述本文介绍与「Prompt窃取与保护」相关的几篇工作。首先我们来区分一下两种不同的prompt形式:(图片来源:工作[5])