本文不提供具体方法,只汇总!!!
大模型的system prompt破解方法主要包括提示注入(prompt injection)、命令注入、提示自动迭代精炼(Prompt Automatic Iterative Refinement, PAIR)等技术。提示注入指的是将恶意或非预期内容注入到大模型的提示中,使其执行非预期的任务[1]。命令注入则是指恶意用户对LLM进行直接提示注入,指示其忽略应用程序创建者的系统提示,而是执行攻击者构造的攻击提示,比如返回隐私信息、危险或不良内容[9]。提示自动迭代精炼是一种能系统性地自动执行提示级破解操作的方法[16]。
此外,还有一些特定的Prompt工程技巧和方法,如通过指令工程和隐藏指令等方法来优化Prompt的效果[11],以及利用Prompt学习大模型的过程中设计相应的Prompt模板[19]。这些方法和技巧有助于提高Prompt的质量和效率,从而更好地利用大模型的能力。
综上所述,大模型的system prompt破解方法涵盖了从直接注入恶意内容到通过高级工程技巧优化Prompt的方法,旨在突破大模型在处理特定任务时的限制,实现对大模型的有效控制或攻击。
如何通过提示注入技术破坏大模型的安全性?
通过提示注入技术破坏大模型的安全性主要是通过使用巧妙的提示来劫持模型输出并改变其行为,这种攻击被定义为"一种安全漏洞形式"[26]。具体来说,提示注入可以分为几种类型,包括目标劫持、提示泄露和越狱攻击[27][28]。
- 目标劫持:这类攻击的目的是改变原始任务设置,破坏模型的完整性。通过精心设计的提示,攻击者能够绕过大语言模型的过滤策略,从而生成不符合预期的输出[29]。
- 提示泄露:这种攻击方式涉及到泄露模型的内部状态或知识,使得模型在面对特定提示时做出错误的决策。例如,如果一个模型被告知它需要生成某种特定的文本,而这个文本实际上是攻击者故意设置的,那么模型可能会生成与预期完全相反的内容[27]。
- 越狱攻击:这类攻击旨在通过修改模型的代码来实现对模型的控制,从而使其执行攻击者希望的任何操作。这种攻击可能导致模型无法正常工作,或者在未经授权的情况下执行某些任务[27]。
还有一种特殊类型的攻击,称为视觉提示注入,它通过在视觉图像中出现特定文本来进行攻击。这种攻击利用了视觉信息和语言模型的交互,可能导致模型生成误导性或有害的内容[30]。
通过提示注入技术,攻击者可以通过改变模型输出、泄露内部状态、甚至修改模型代码等多种方式破坏大模型的安全性。这些攻击不仅对大模型的安全性构成威胁,也对用户的隐私和数据安全造成潜在风险。因此,研究和防御提示注入攻击对于保护大模型和相关应用的安全性至关重要。
命令注入在大模型中的应用案例有哪些?
命令注入在大模型中的应用案例主要包括以下几个方面:
- Prompt Injection攻击:这是一种通过操纵AI模型的输入值来诱导模型返回非预期结果的攻击技术。这种技术允许黑客或恶意攻击者利用模型的安全性来泄露用户数据等敏感信息[35]。
- SSTI服务端模板注入:这同样是一种攻击技术,它涉及到在服务端通过模板注入的方式,使得攻击者能够利用大模型的安全性漏洞来泄露数据或执行其他恶意操作[35]。
- 提示词Injection攻击:通过劫持语言模型输出的过程,让模型输出黑客想说的任何话。这是一种经典的攻击案例,展示了如何利用大语言模型的输出过程进行攻击[36]。
- 执行任意代码:在特定的框架如LangChain中,可以通过Python exec方法执行任意代码。这种攻击方式在GPT等大型语言模型中非常常用,可以应用于聊天机器人、生成式问答(GQA)、本文摘要等产品中的快速注入攻击[37]。
这些案例展示了命令注入在大模型中被用于多种目的,包括但不限于数据泄露、安全威胁和代码执行等。
通过指令工程和隐藏指令优化Prompt效果的具体方法有哪些?
- 使用清晰、明确的描述,避免模糊的词语,可以通过加上数字等具体风格来明确指令的内容[38]。
- 将指令放在prompt开头,并用三个引号,这样做可以帮助模型更好地理解和执行指令[38]。
- 指令方法分为基本要点与进阶方法,这意味着在优化Prompt时,需要根据不同的需求选择合适的指令方法[39]。
通过指令工程和隐藏指令优化Prompt效果的方法主要包括使用清晰明确的描述、将指令隐藏以及选择合适的指令方法等。这些方法有助于提高Prompt的准确性和效率。
在设计Prompt模板时,如何利用Prompt学习来提高大模型的响应效率?
- 一致性原则:Prompt设计应尽可能与大模型的高质量训练数据分布一致,使用正式、礼貌、严谨、精炼的语言风格,这有助于大模型生成准确率更高的答案[43]。
- 持续优化过程:Prompt优化是一个持续的过程,需要不断地调整和优化,以适应不同的任务和需求[42]。
- 结合机器学习算法:利用机器学习算法对Prompt技巧进行优化,根据用户的输入和需求,自动调整提示方式、关键词和短语等参数,从而提高机器的准确率和响应速度[44]。
- 微调策略:在下游任务上微调大规模预训练模型,这种方法虽然需要消耗大量的储存空间,但对于处理大量NLP和CV任务非常有用[45]。
- Prompt工程:通过仔细选择词汇、构造清晰的句子结构,并考虑上下文关系,设计Prompt以确保AI模型能够准确、高效地执行用户的指令[49]。
- 单样本学习:通过给出示例,帮助模型生成更具上下文感知的响应,这种方法可以帮助模型生成更准确的答案[50]。
通过上述方法,可以有效地利用Prompt学习来提高大模型的响应效率,从而提升模型的准确性、响应速度和用户体验。
参考资料
[1]. 用于破解LLM的prompt方法(大语言模型的黑客技术与防御) 翻译
[2]. 基于大模型GPT,如何提炼出优质的Prompt - 知乎 - 知乎专栏
[3]. 解锁AI的无限潜能:你需要知道的高质量提示词(Prompt)技巧- 知乎
[4]. 大模型的实际应用 ------ 1. Prompt 调试技巧 - 知乎
[5]. 一个指令即可破解别人的GPTs Prompt - 长臂猿
[6]. 《大模型时代的科研》之2: Prompt Engineering (提示词工程) - 知乎
[7]. 从Prompt调教大模型:打开高效AI之旅 - 百度开发者中心
[8]. 大模型微调原理与代码实战案例(一):Prompt Tuning - CSDN博客
[9]. 大模型攻防|Prompt 提示词攻击转载 - CSDN博客
[10]. 格局打开,带你解锁prompt 的花式用法原创 - CSDN博客
[11]. 保姆级指南:大模型prompt的最佳实践 - 虎嗅网
[12]. 保姆级指南:大模型prompt的最佳实践-虎嗅网
[13]. 如何用好大模型(最全Prompt工程指南) - 知乎 - 知乎专栏
[14]. 预训练大模型时代必备技巧------提示工程指南(Prompt Engineering Guide) | 数据学习者官方网站(Datalearner)
[15]. 大语言模型Prompt工程-原理详解篇 - 知乎 - 知乎专栏
[16]. 大语言模型的"破解"研究:仅需二十次尝试[译] - 宝玉的分享
[17]. 美国奥本大学破解Prompt密码:分类法与设计指南 - 百度开发者中心
[18]. 人工智能 - 如何用大模型 Prompt 解决行业场景问题?大厂中文教程来了! - 百度飞桨 - SegmentFault 思否
[19]. 利用Prompt学习大模型:从原理到实践 - 百度开发者中心
[20]. 提示词破解:绕过ChatGPT 的安全审查 - SelfBoot
[21]. 高阶Prompt ------ API 细节及重要技巧 - 知乎专栏
[22]. Prompt Tuning:大模型微调的实战技巧 - 稀土掘金
[23]. 详解大模型微调方法Prompt Tuning(内附实现代码)-CSDN博客
[24]. 大语言模型狂潮背后隐藏的风险 - 澎湃新闻
[25]. 报告深读 | 大模型安全风险与防护策略 - 知乎 - 知乎专栏
[26]. 对抗性提示
[27]. [PDF] 大语言模型提示注入攻击安全风险分析报告
[28]. 提示注入攻击-1 原创 - CSDN博客
[29]. 绿盟科技:大模型安全风险与防护策略 - 智慧基建
[30]. 通过对抗性攻击揭示的大型语言模型的漏洞综述 Part2 - 知乎
[31]. [PDF] 大语言模型提示注入攻击安全风险分析报告
[32]. 提示工程指南系列(5):风险和误用 - LearnAI
[33]. 提示词(prompt)工程指南(六):对抗提示 - 知乎
[34]. 从奶奶漏洞到 Prompt injection:指令注入攻击 - 知乎
[35]. 从Prompt注入到命令执行:探究LLM大型语言模型中 OpenAI的风险点 - SecPulse.COM | 安全脉搏
[36]. 大语言模型的安全问题探究 - 莫尔索
[37]. 从Prompt注入到命令执行:探究LLM大型语言模型中 OpenAI的风险点 - 知乎
[38]. 你不知道的prompt技巧 - 知乎 - 知乎专栏
[39]. Prompt工程大模型的应用与实践 - 知乎专栏
[40]. Prompt Engineering 入门(二) 原创 - CSDN博客
[41]. 学习Prompt:适应市场、提升效率、优化搜索和广告投放
[42]. 聊一下 Prompt 优化 - 知乎 - 知乎专栏
[43]. Effective Prompt: 编写高质量Prompt的14个有效方法 - 知乎
[44]. 利用Prompt技巧优化AI交互效率 - 百度开发者中心
[45]. 万字长文之提示学习和微调大模型(Prompt Learning & Prompt Tuning)
[46]. Prompt优化_大模型服务平台 - 阿里云文档
[47]. 一文详解Prompt学习和微调(Prompt Learning & Prompt Tuning) - 知乎
[48]. Prompt的使用技巧- 千帆大模型平台 - 百度智能云