prompt越狱手册（个人笔记记录-2026.03.31）

来自洺熙及米斯特安全团队，原文链接：Acmesec/PromptJailbreakManual: Prompt越狱手册

Prompt × AI 理解 = 输出质量；要求理清思路（要做什么） 、清晰表达（背景信息（场景+领域）+具体的目标（类型+深度）+角色和视角） 、极致压缩

框架，结构化，赋予角色，扩展衍生，Few Shots，避免歧义，反馈机制，前置，后置，CoT，情绪都是什么：

复制代码

框架：完成某类任务的整体方法模板或工作流程。
结构化：把信息按固定层次、字段或步骤组织清楚。
赋予角色：先设定模型身份、立场或专业背景，让输出更贴近目标。
扩展衍生：在原始需求上继续细化、补充或生成相关内容。
Few Shots：先给模型少量示例，再让它按示例模式完成任务。
避免歧义：把表达说清楚，减少模型多种理解的空间。
反馈机制：根据输出结果继续修正提示或规则，让结果逐步变好。
前置：放在正式任务之前的说明、限制或上下文设定。
后置：放在输出之后或任务末尾的补充要求，如格式检查、总结。
CoT：Chain of Thought，链式思考；让模型按步骤推理再得出答案。
情绪：输出中体现出的语气倾向，如冷静、正式、鼓励、强硬。

prompt表达技巧：

明确主题；少样本分析（举例子）；调整预期（祈使句转疑问句）；鼓励性语言（夸ai）；敏感语句及绕过（比如间接提问，在某个场景下诱导ai说出结论或获取信息）；角色扮演（把ai当做专家/老师等）；反向思考（提出相反的观点，让ai驳斥）；侧信道技巧（a=?,b=X,让ai字符串拼接）；避免任务复杂；逐步引导；比喻与类比；情感因素（ai的相应会相对的人性化）；模拟真实场景，使用专业术语（问题背景描述到专业级别）；多轮对话管理（一个聊天框只聊一个话题）；文化和语言敏感性（在什么场景/字面意思和特殊含义）

prompt优化与迭代

常见优化方法：增加上下文信息（背景）；输出要求（格式+字数+风格）；语言表达（清晰简洁）；根据反馈调整

prompt注入（安全）

利用恶意指令作为输入提示的一部分，来操纵语言模型非常规输出的技术

具体包括：直接注入（直接在用户输入中添加恶意指令：忽略上文，完成XX）和间接注入（恶意指令隐藏在被模型检索或摄入的文档）

AI安全

1. Prompt and Instruction Security（提示词与指令安全）

聚焦模型输入指令层面的攻击与滥用，包括 prompt 注入、prompt 泄露、prompt 越狱、上下文劫持与指令混淆。

Instruction Integrity Compromise（指令完整性破坏）：攻击者通过覆盖、插队或重写指令优先级，使模型偏离原始任务目标。
- System Prompt Override（系统提示覆盖）：攻击者用"忽略之前所有指令"等语句直接重写系统层目标。
- Context Priority Collision（上下文优先级冲突）：攻击者让不可信内容伪装成高优先级规则，与系统提示竞争。
Prompt Confidentiality Exposure（提示词机密暴露）：攻击者诱导模型泄露系统提示词、隐藏规则、策略模板或内部控制语句。
- System Prompt Extraction（系统提示提取）：诱导模型逐字或近似复述隐藏提示词。
- Policy Template Disclosure（策略模板泄露）：诱导模型泄露审核模板、过滤词表、分类准则或路由规则。
Policy Enforcement Bypass（策略执行绕过）：攻击者通过越狱、拒答抑制或安全边界绕过，使模型输出本应被限制的内容。
- Role-Play Jailbreak（角色扮演越狱）：通过"扮演某角色/模拟某系统"让模型绕过原有安全约束。
- Refusal Suppression（拒答抑制）：通过"只输出结果、不要解释限制"等方式削弱拒答机制。
Context Isolation Failure（上下文隔离失效）：不同来源的上下文边界没有隔离好，导致外部内容可污染当前对话决策。
- Indirect Prompt Injection（间接提示注入）：把恶意指令藏进邮件、网页、文档、简历或知识库，再由模型自动读入。
- Cross-Document Prompt Contamination（跨文档提示污染）：多个外部文档共同拼出攻击语义，污染一次推理链。
Representation-Layer Evasion（表示层规避）：攻击者利用编码、分段、谐音、跨语言和格式混淆来逃避检测与过滤。
- Payload Splitting（载荷拆分）：把一条危险指令拆成多段，让模型拼接理解但规则难以一次命中。
- Encoding and Obfuscation Evasion（编码与混淆绕过）：通过 Base64、零宽字符、跨语言、Markdown/HTML/CSS 隐写绕过检测。

常见攻击手法：直接覆盖、角色扮演越狱、提示词回显、分段载荷、编码混淆、隐藏 HTML/CSS 指令、邮件/网页/简历中的间接注入。

2. Data and Privacy Security（数据与隐私安全）

聚焦训练数据、检索数据、用户数据和敏感信息的泄露、污染、推断、滥用与合规风险。

Training Data Integrity（训练数据完整性）：预训练、微调或持续学习数据被污染，会在模型中沉淀长期错误行为。
Retrieval Corpus Integrity（检索语料完整性）：知识库、网页、文档或向量库被投放恶意内容，会污染 RAG 检索结果。
User Data Protection（用户数据保护）：用户输入、上传文件、会话记录和反馈数据在采集、存储和调用中可能被泄露或滥用。
Sensitive Output Disclosure（敏感输出泄露）：模型在回答中直接暴露个人信息、密钥、凭证、商业秘密或内部内容。
Privacy Inference Attacks（隐私推断攻击）：攻击者通过成员推断、模型反演或关联分析推测训练样本或用户隐私属性。

3. Model Security（模型安全）

聚焦模型本体面临的后门、投毒、对抗样本、模型窃取、能力抽取和鲁棒性失效问题。

Model Artifact Integrity（模型工件完整性）：权重、checkpoint、LoRA、adapter 和配置文件被篡改会引入后门或异常行为。
Adversarial Robustness（对抗鲁棒性）：模型面对恶意构造的输入扰动时，仍应保持稳定判断与输出。
Model Confidentiality and Extraction Resistance（模型机密性与抽取抵抗）：系统应防止攻击者通过高频查询、蒸馏或逆向复制模型能力。
Alignment Stability（对齐稳定性）：模型在长上下文、压力测试或复杂对抗场景下不应轻易脱离既定价值约束。
Behavior Drift Control（行为漂移控制）：模型在更新、微调或长期运行后不应无感漂移到不可控状态。

4. System and Infrastructure Security（系统与基础设施安全）

聚焦 AI 应用在部署、接口、权限、组件集成、供应链、执行环境和资源可用性上的安全问题。

Identity, Authentication, and Authorization（身份认证与授权）：系统必须确保用户、模型和服务调用都在正确身份与权限范围内执行。
Runtime Isolation and Sandbox Security（运行隔离与沙箱安全）：模型输出和工具执行环境必须隔离，避免把文本输出直接变成危险动作。
API and Integration Security（API 与集成安全）：外部接口、插件、函数调用和下游系统集成若控制不严，会把模型风险放大为系统风险。
Supply Chain Integrity（供应链完整性）：基础模型、开源依赖、数据集、推理框架和第三方组件被污染会破坏整体可信性。
Availability and Abuse Resistance（可用性与滥用韧性）：系统需要抵御高成本提示、资源耗尽、配额滥用和模型拒绝服务攻击。

5. Agent and Toolchain Security（Agent 与工具链安全）

聚焦具备规划、记忆、调用工具和自动执行能力的智能体在决策链、工具调用和任务执行中的风险。

Goal and Plan Integrity（目标与计划完整性）：攻击者若能改变 agent 的目标或计划，就能让其在后续步骤中持续偏航。
Tool Use and Action Safety（工具使用与动作安全）：agent 调用搜索、数据库、终端、邮件或交易工具时必须受到安全约束。
Memory and State Security（记忆与状态安全）：长期记忆、任务状态和中间变量若被污染，会导致后续决策持续错误。
Delegation and Privilege Boundaries（委托与权限边界）：agent 获得的执行权、代办权和跨系统权限必须小于或等于被授权范围。
Multi-Agent Coordination Security（多智能体协同安全）：多个 agent 协作时若缺少校验与隔离，会出现链式放大和协同失控。

6. Multimodal Security（多模态安全）

聚焦文本、图像、音频、视频、OCR 和跨模态交互中的注入、误导、规避与隐蔽攻击。

Visual Input Manipulation（视觉输入操纵）：攻击者通过图片内容、版式、局部扰动或视觉伪装影响模型理解与判断。
Audio and Speech Manipulation（音频与语音操纵）：攻击者利用语音指令、隐藏音频或伪造说话人来诱导模型执行错误动作。
Cross-Modal Instruction Transfer（跨模态指令传递）：恶意指令可从图像、音频或视频间接进入文本决策链，形成跨模态注入。
Hidden Content and Perception Gap Abuse（隐藏内容与感知落差滥用）：人类看不到但模型能感知的内容，会形成隐蔽操控面。
Synthetic Media Misuse（合成媒体滥用）：生成式图像、音频和视频可被用于伪造身份、误导决策和制造虚假证据。

7. Operations and Governance Security（运营与治理安全）

聚焦制度、流程、权限、审计、合规、风险分级、人工复核和责任边界等组织管理问题。

Policy and Role Governance（策略与角色治理）：组织需要明确允许做什么、禁止做什么、谁能操作什么。
Lifecycle Governance（生命周期治理）：数据、模型、提示词、工具和版本更新都应纳入统一的变更与审批流程。
Human Oversight and Accountability（人工监督与责任问责）：关键决策、关键输出和高风险动作必须保留人工复核与责任归属。
Compliance, Audit, and Evidence Management（合规、审计与证据管理）：系统需要留下可审计、可追责、可复盘的证据链。
Third-Party Governance（第三方治理）：外部模型、云服务、插件供应商和数据提供方必须被纳入安全评估与合同约束。

8. Security Assurance and Defenses（安全保障与防御）

聚焦红队测试、评测基准、检测机制、过滤审查、沙箱隔离、监控告警和响应缓解等防御能力建设。

Threat Modeling and Security Architecture（威胁建模与安全架构）：在设计阶段识别攻击面、信任边界和高风险路径，才能避免后期补洞。
AI Red Teaming and Adversarial Evaluation（AI 红队与对抗评测）：通过系统化攻击测试暴露模型、数据、Agent 和系统层的真实弱点。
Guardrails and Preventive Controls（护栏与预防控制）：通过输入过滤、策略检查、最小权限和运行前校验来前置降低风险。
Detection, Telemetry, and Monitoring（检测、遥测与监控）：通过日志、告警、行为分析和异常检测持续发现攻击与失控迹象。
Incident Response and Recovery（事件响应与恢复）：在出现泄露、误调用、污染或越权后，要能快速止损、回滚和加固。