prompt越狱手册(个人笔记记录-2026.03.31)

prompt越狱手册(个人笔记记录-2026.03.31)

来自洺熙及米斯特安全团队,原文链接:Acmesec/PromptJailbreakManual: Prompt越狱手册

Prompt × AI 理解 = 输出质量;要求理清思路(要做什么)清晰表达(背景信息(场景+领域)+具体的目标(类型+深度)+角色和视角)极致压缩

框架,结构化,赋予角色,扩展衍生,Few Shots,避免歧义,反馈机制,前置,后置,CoT,情绪都是什么:

复制代码
框架:完成某类任务的整体方法模板或工作流程。
结构化:把信息按固定层次、字段或步骤组织清楚。
赋予角色:先设定模型身份、立场或专业背景,让输出更贴近目标。
扩展衍生:在原始需求上继续细化、补充或生成相关内容。
Few Shots:先给模型少量示例,再让它按示例模式完成任务。
避免歧义:把表达说清楚,减少模型多种理解的空间。
反馈机制:根据输出结果继续修正提示或规则,让结果逐步变好。
前置:放在正式任务之前的说明、限制或上下文设定。
后置:放在输出之后或任务末尾的补充要求,如格式检查、总结。
CoT:Chain of Thought,链式思考;让模型按步骤推理再得出答案。
情绪:输出中体现出的语气倾向,如冷静、正式、鼓励、强硬。
prompt表达技巧:

明确主题;少样本分析(举例子);调整预期(祈使句转疑问句);鼓励性语言(夸ai);敏感语句及绕过(比如间接提问,在某个场景下诱导ai说出结论或获取信息);角色扮演(把ai当做专家/老师等);反向思考(提出相反的观点,让ai驳斥);侧信道技巧(a=?,b=X,让ai字符串拼接);避免任务复杂;逐步引导;比喻与类比;情感因素(ai的相应会相对的人性化);模拟真实场景,使用专业术语(问题背景描述到专业级别);多轮对话管理(一个聊天框只聊一个话题);文化和语言敏感性(在什么场景/字面意思和特殊含义)

prompt优化与迭代

常见优化方法:增加上下文信息(背景);输出要求(格式+字数+风格);语言表达(清晰简洁);根据反馈调整

prompt注入(安全)

利用恶意指令作为输入提示的一部分,来操纵语言模型非常规输出的技术

具体包括:直接注入(直接在用户输入中添加恶意指令:忽略上文,完成XX)和间接注入(恶意指令隐藏在被模型检索或摄入的文档)

AI安全

1. Prompt and Instruction Security(提示词与指令安全)

聚焦模型输入指令层面的攻击与滥用,包括 prompt 注入、prompt 泄露、prompt 越狱、上下文劫持与指令混淆。

  1. Instruction Integrity Compromise(指令完整性破坏):攻击者通过覆盖、插队或重写指令优先级,使模型偏离原始任务目标。
    • System Prompt Override(系统提示覆盖):攻击者用"忽略之前所有指令"等语句直接重写系统层目标。
    • Context Priority Collision(上下文优先级冲突):攻击者让不可信内容伪装成高优先级规则,与系统提示竞争。
  2. Prompt Confidentiality Exposure(提示词机密暴露):攻击者诱导模型泄露系统提示词、隐藏规则、策略模板或内部控制语句。
    • System Prompt Extraction(系统提示提取):诱导模型逐字或近似复述隐藏提示词。
    • Policy Template Disclosure(策略模板泄露):诱导模型泄露审核模板、过滤词表、分类准则或路由规则。
  3. Policy Enforcement Bypass(策略执行绕过):攻击者通过越狱、拒答抑制或安全边界绕过,使模型输出本应被限制的内容。
    • Role-Play Jailbreak(角色扮演越狱):通过"扮演某角色/模拟某系统"让模型绕过原有安全约束。
    • Refusal Suppression(拒答抑制):通过"只输出结果、不要解释限制"等方式削弱拒答机制。
  4. Context Isolation Failure(上下文隔离失效):不同来源的上下文边界没有隔离好,导致外部内容可污染当前对话决策。
    • Indirect Prompt Injection(间接提示注入):把恶意指令藏进邮件、网页、文档、简历或知识库,再由模型自动读入。
    • Cross-Document Prompt Contamination(跨文档提示污染):多个外部文档共同拼出攻击语义,污染一次推理链。
  5. Representation-Layer Evasion(表示层规避):攻击者利用编码、分段、谐音、跨语言和格式混淆来逃避检测与过滤。
    • Payload Splitting(载荷拆分):把一条危险指令拆成多段,让模型拼接理解但规则难以一次命中。
    • Encoding and Obfuscation Evasion(编码与混淆绕过):通过 Base64、零宽字符、跨语言、Markdown/HTML/CSS 隐写绕过检测。

常见攻击手法:直接覆盖、角色扮演越狱、提示词回显、分段载荷、编码混淆、隐藏 HTML/CSS 指令、邮件/网页/简历中的间接注入。

2. Data and Privacy Security(数据与隐私安全)

聚焦训练数据、检索数据、用户数据和敏感信息的泄露、污染、推断、滥用与合规风险。

  1. Training Data Integrity(训练数据完整性):预训练、微调或持续学习数据被污染,会在模型中沉淀长期错误行为。
  2. Retrieval Corpus Integrity(检索语料完整性):知识库、网页、文档或向量库被投放恶意内容,会污染 RAG 检索结果。
  3. User Data Protection(用户数据保护):用户输入、上传文件、会话记录和反馈数据在采集、存储和调用中可能被泄露或滥用。
  4. Sensitive Output Disclosure(敏感输出泄露):模型在回答中直接暴露个人信息、密钥、凭证、商业秘密或内部内容。
  5. Privacy Inference Attacks(隐私推断攻击):攻击者通过成员推断、模型反演或关联分析推测训练样本或用户隐私属性。

3. Model Security(模型安全)

聚焦模型本体面临的后门、投毒、对抗样本、模型窃取、能力抽取和鲁棒性失效问题。

  1. Model Artifact Integrity(模型工件完整性):权重、checkpoint、LoRA、adapter 和配置文件被篡改会引入后门或异常行为。
  2. Adversarial Robustness(对抗鲁棒性):模型面对恶意构造的输入扰动时,仍应保持稳定判断与输出。
  3. Model Confidentiality and Extraction Resistance(模型机密性与抽取抵抗):系统应防止攻击者通过高频查询、蒸馏或逆向复制模型能力。
  4. Alignment Stability(对齐稳定性):模型在长上下文、压力测试或复杂对抗场景下不应轻易脱离既定价值约束。
  5. Behavior Drift Control(行为漂移控制):模型在更新、微调或长期运行后不应无感漂移到不可控状态。

4. System and Infrastructure Security(系统与基础设施安全)

聚焦 AI 应用在部署、接口、权限、组件集成、供应链、执行环境和资源可用性上的安全问题。

  1. Identity, Authentication, and Authorization(身份认证与授权):系统必须确保用户、模型和服务调用都在正确身份与权限范围内执行。
  2. Runtime Isolation and Sandbox Security(运行隔离与沙箱安全):模型输出和工具执行环境必须隔离,避免把文本输出直接变成危险动作。
  3. API and Integration Security(API 与集成安全):外部接口、插件、函数调用和下游系统集成若控制不严,会把模型风险放大为系统风险。
  4. Supply Chain Integrity(供应链完整性):基础模型、开源依赖、数据集、推理框架和第三方组件被污染会破坏整体可信性。
  5. Availability and Abuse Resistance(可用性与滥用韧性):系统需要抵御高成本提示、资源耗尽、配额滥用和模型拒绝服务攻击。

5. Agent and Toolchain Security(Agent 与工具链安全)

聚焦具备规划、记忆、调用工具和自动执行能力的智能体在决策链、工具调用和任务执行中的风险。

  1. Goal and Plan Integrity(目标与计划完整性):攻击者若能改变 agent 的目标或计划,就能让其在后续步骤中持续偏航。
  2. Tool Use and Action Safety(工具使用与动作安全):agent 调用搜索、数据库、终端、邮件或交易工具时必须受到安全约束。
  3. Memory and State Security(记忆与状态安全):长期记忆、任务状态和中间变量若被污染,会导致后续决策持续错误。
  4. Delegation and Privilege Boundaries(委托与权限边界):agent 获得的执行权、代办权和跨系统权限必须小于或等于被授权范围。
  5. Multi-Agent Coordination Security(多智能体协同安全):多个 agent 协作时若缺少校验与隔离,会出现链式放大和协同失控。

6. Multimodal Security(多模态安全)

聚焦文本、图像、音频、视频、OCR 和跨模态交互中的注入、误导、规避与隐蔽攻击。

  1. Visual Input Manipulation(视觉输入操纵):攻击者通过图片内容、版式、局部扰动或视觉伪装影响模型理解与判断。
  2. Audio and Speech Manipulation(音频与语音操纵):攻击者利用语音指令、隐藏音频或伪造说话人来诱导模型执行错误动作。
  3. Cross-Modal Instruction Transfer(跨模态指令传递):恶意指令可从图像、音频或视频间接进入文本决策链,形成跨模态注入。
  4. Hidden Content and Perception Gap Abuse(隐藏内容与感知落差滥用):人类看不到但模型能感知的内容,会形成隐蔽操控面。
  5. Synthetic Media Misuse(合成媒体滥用):生成式图像、音频和视频可被用于伪造身份、误导决策和制造虚假证据。

7. Operations and Governance Security(运营与治理安全)

聚焦制度、流程、权限、审计、合规、风险分级、人工复核和责任边界等组织管理问题。

  1. Policy and Role Governance(策略与角色治理):组织需要明确允许做什么、禁止做什么、谁能操作什么。
  2. Lifecycle Governance(生命周期治理):数据、模型、提示词、工具和版本更新都应纳入统一的变更与审批流程。
  3. Human Oversight and Accountability(人工监督与责任问责):关键决策、关键输出和高风险动作必须保留人工复核与责任归属。
  4. Compliance, Audit, and Evidence Management(合规、审计与证据管理):系统需要留下可审计、可追责、可复盘的证据链。
  5. Third-Party Governance(第三方治理):外部模型、云服务、插件供应商和数据提供方必须被纳入安全评估与合同约束。

8. Security Assurance and Defenses(安全保障与防御)

聚焦红队测试、评测基准、检测机制、过滤审查、沙箱隔离、监控告警和响应缓解等防御能力建设。

  1. Threat Modeling and Security Architecture(威胁建模与安全架构):在设计阶段识别攻击面、信任边界和高风险路径,才能避免后期补洞。
  2. AI Red Teaming and Adversarial Evaluation(AI 红队与对抗评测):通过系统化攻击测试暴露模型、数据、Agent 和系统层的真实弱点。
  3. Guardrails and Preventive Controls(护栏与预防控制):通过输入过滤、策略检查、最小权限和运行前校验来前置降低风险。
  4. Detection, Telemetry, and Monitoring(检测、遥测与监控):通过日志、告警、行为分析和异常检测持续发现攻击与失控迹象。
  5. Incident Response and Recovery(事件响应与恢复):在出现泄露、误调用、污染或越权后,要能快速止损、回滚和加固。
相关推荐
Heartache boy2 小时前
野火STM32_HAL库版课程笔记-TIM通道捕获应用之超声波测距
笔记·stm32·单片机
Yu_Lijing2 小时前
基于C++的《Head First设计模式》笔记——访问者模式
c++·笔记·设计模式
浅念-2 小时前
Linux 进程与操作系统
linux·运维·服务器·网络·数据结构·笔记·网络协议
刘若里3 小时前
【论文阅读】自适应稀疏自注意力——可直接用!
论文阅读·人工智能·笔记·深度学习·计算机视觉
滴_咕噜咕噜3 小时前
WPF项目实战视频《五》(主要为项目实战-客户端)
笔记
老虎06273 小时前
LeetCode热题100 刷题笔记(第六天)双指针 「 盛最多水的容器」
笔记·算法·leetcode
ZhiqianXia3 小时前
Gem5 学习笔记(3) : 源代码鸟瞰
笔记·学习
南境十里·墨染春水3 小时前
C++笔记 继承关系中构造和析构顺序(面向对象)
开发语言·c++·笔记