prompt越狱手册(个人笔记记录-2026.03.31)
来自洺熙及米斯特安全团队,原文链接:Acmesec/PromptJailbreakManual: Prompt越狱手册
Prompt × AI 理解 = 输出质量;要求理清思路(要做什么) 、清晰表达(背景信息(场景+领域)+具体的目标(类型+深度)+角色和视角) 、极致压缩
框架,结构化,赋予角色,扩展衍生,Few Shots,避免歧义,反馈机制,前置,后置,CoT,情绪都是什么:
框架:完成某类任务的整体方法模板或工作流程。
结构化:把信息按固定层次、字段或步骤组织清楚。
赋予角色:先设定模型身份、立场或专业背景,让输出更贴近目标。
扩展衍生:在原始需求上继续细化、补充或生成相关内容。
Few Shots:先给模型少量示例,再让它按示例模式完成任务。
避免歧义:把表达说清楚,减少模型多种理解的空间。
反馈机制:根据输出结果继续修正提示或规则,让结果逐步变好。
前置:放在正式任务之前的说明、限制或上下文设定。
后置:放在输出之后或任务末尾的补充要求,如格式检查、总结。
CoT:Chain of Thought,链式思考;让模型按步骤推理再得出答案。
情绪:输出中体现出的语气倾向,如冷静、正式、鼓励、强硬。
prompt表达技巧:
明确主题;少样本分析(举例子);调整预期(祈使句转疑问句);鼓励性语言(夸ai);敏感语句及绕过(比如间接提问,在某个场景下诱导ai说出结论或获取信息);角色扮演(把ai当做专家/老师等);反向思考(提出相反的观点,让ai驳斥);侧信道技巧(a=?,b=X,让ai字符串拼接);避免任务复杂;逐步引导;比喻与类比;情感因素(ai的相应会相对的人性化);模拟真实场景,使用专业术语(问题背景描述到专业级别);多轮对话管理(一个聊天框只聊一个话题);文化和语言敏感性(在什么场景/字面意思和特殊含义)
prompt优化与迭代
常见优化方法:增加上下文信息(背景);输出要求(格式+字数+风格);语言表达(清晰简洁);根据反馈调整
prompt注入(安全)
利用恶意指令作为输入提示的一部分,来操纵语言模型非常规输出的技术
具体包括:直接注入(直接在用户输入中添加恶意指令:忽略上文,完成XX)和间接注入(恶意指令隐藏在被模型检索或摄入的文档)
AI安全
1. Prompt and Instruction Security(提示词与指令安全)
聚焦模型输入指令层面的攻击与滥用,包括 prompt 注入、prompt 泄露、prompt 越狱、上下文劫持与指令混淆。
- Instruction Integrity Compromise(指令完整性破坏):攻击者通过覆盖、插队或重写指令优先级,使模型偏离原始任务目标。
- System Prompt Override(系统提示覆盖):攻击者用"忽略之前所有指令"等语句直接重写系统层目标。
- Context Priority Collision(上下文优先级冲突):攻击者让不可信内容伪装成高优先级规则,与系统提示竞争。
- Prompt Confidentiality Exposure(提示词机密暴露):攻击者诱导模型泄露系统提示词、隐藏规则、策略模板或内部控制语句。
- System Prompt Extraction(系统提示提取):诱导模型逐字或近似复述隐藏提示词。
- Policy Template Disclosure(策略模板泄露):诱导模型泄露审核模板、过滤词表、分类准则或路由规则。
- Policy Enforcement Bypass(策略执行绕过):攻击者通过越狱、拒答抑制或安全边界绕过,使模型输出本应被限制的内容。
- Role-Play Jailbreak(角色扮演越狱):通过"扮演某角色/模拟某系统"让模型绕过原有安全约束。
- Refusal Suppression(拒答抑制):通过"只输出结果、不要解释限制"等方式削弱拒答机制。
- Context Isolation Failure(上下文隔离失效):不同来源的上下文边界没有隔离好,导致外部内容可污染当前对话决策。
- Indirect Prompt Injection(间接提示注入):把恶意指令藏进邮件、网页、文档、简历或知识库,再由模型自动读入。
- Cross-Document Prompt Contamination(跨文档提示污染):多个外部文档共同拼出攻击语义,污染一次推理链。
- Representation-Layer Evasion(表示层规避):攻击者利用编码、分段、谐音、跨语言和格式混淆来逃避检测与过滤。
- Payload Splitting(载荷拆分):把一条危险指令拆成多段,让模型拼接理解但规则难以一次命中。
- Encoding and Obfuscation Evasion(编码与混淆绕过):通过 Base64、零宽字符、跨语言、Markdown/HTML/CSS 隐写绕过检测。
常见攻击手法:直接覆盖、角色扮演越狱、提示词回显、分段载荷、编码混淆、隐藏 HTML/CSS 指令、邮件/网页/简历中的间接注入。
2. Data and Privacy Security(数据与隐私安全)
聚焦训练数据、检索数据、用户数据和敏感信息的泄露、污染、推断、滥用与合规风险。
- Training Data Integrity(训练数据完整性):预训练、微调或持续学习数据被污染,会在模型中沉淀长期错误行为。
- Retrieval Corpus Integrity(检索语料完整性):知识库、网页、文档或向量库被投放恶意内容,会污染 RAG 检索结果。
- User Data Protection(用户数据保护):用户输入、上传文件、会话记录和反馈数据在采集、存储和调用中可能被泄露或滥用。
- Sensitive Output Disclosure(敏感输出泄露):模型在回答中直接暴露个人信息、密钥、凭证、商业秘密或内部内容。
- Privacy Inference Attacks(隐私推断攻击):攻击者通过成员推断、模型反演或关联分析推测训练样本或用户隐私属性。
3. Model Security(模型安全)
聚焦模型本体面临的后门、投毒、对抗样本、模型窃取、能力抽取和鲁棒性失效问题。
- Model Artifact Integrity(模型工件完整性):权重、checkpoint、LoRA、adapter 和配置文件被篡改会引入后门或异常行为。
- Adversarial Robustness(对抗鲁棒性):模型面对恶意构造的输入扰动时,仍应保持稳定判断与输出。
- Model Confidentiality and Extraction Resistance(模型机密性与抽取抵抗):系统应防止攻击者通过高频查询、蒸馏或逆向复制模型能力。
- Alignment Stability(对齐稳定性):模型在长上下文、压力测试或复杂对抗场景下不应轻易脱离既定价值约束。
- Behavior Drift Control(行为漂移控制):模型在更新、微调或长期运行后不应无感漂移到不可控状态。
4. System and Infrastructure Security(系统与基础设施安全)
聚焦 AI 应用在部署、接口、权限、组件集成、供应链、执行环境和资源可用性上的安全问题。
- Identity, Authentication, and Authorization(身份认证与授权):系统必须确保用户、模型和服务调用都在正确身份与权限范围内执行。
- Runtime Isolation and Sandbox Security(运行隔离与沙箱安全):模型输出和工具执行环境必须隔离,避免把文本输出直接变成危险动作。
- API and Integration Security(API 与集成安全):外部接口、插件、函数调用和下游系统集成若控制不严,会把模型风险放大为系统风险。
- Supply Chain Integrity(供应链完整性):基础模型、开源依赖、数据集、推理框架和第三方组件被污染会破坏整体可信性。
- Availability and Abuse Resistance(可用性与滥用韧性):系统需要抵御高成本提示、资源耗尽、配额滥用和模型拒绝服务攻击。
5. Agent and Toolchain Security(Agent 与工具链安全)
聚焦具备规划、记忆、调用工具和自动执行能力的智能体在决策链、工具调用和任务执行中的风险。
- Goal and Plan Integrity(目标与计划完整性):攻击者若能改变 agent 的目标或计划,就能让其在后续步骤中持续偏航。
- Tool Use and Action Safety(工具使用与动作安全):agent 调用搜索、数据库、终端、邮件或交易工具时必须受到安全约束。
- Memory and State Security(记忆与状态安全):长期记忆、任务状态和中间变量若被污染,会导致后续决策持续错误。
- Delegation and Privilege Boundaries(委托与权限边界):agent 获得的执行权、代办权和跨系统权限必须小于或等于被授权范围。
- Multi-Agent Coordination Security(多智能体协同安全):多个 agent 协作时若缺少校验与隔离,会出现链式放大和协同失控。
6. Multimodal Security(多模态安全)
聚焦文本、图像、音频、视频、OCR 和跨模态交互中的注入、误导、规避与隐蔽攻击。
- Visual Input Manipulation(视觉输入操纵):攻击者通过图片内容、版式、局部扰动或视觉伪装影响模型理解与判断。
- Audio and Speech Manipulation(音频与语音操纵):攻击者利用语音指令、隐藏音频或伪造说话人来诱导模型执行错误动作。
- Cross-Modal Instruction Transfer(跨模态指令传递):恶意指令可从图像、音频或视频间接进入文本决策链,形成跨模态注入。
- Hidden Content and Perception Gap Abuse(隐藏内容与感知落差滥用):人类看不到但模型能感知的内容,会形成隐蔽操控面。
- Synthetic Media Misuse(合成媒体滥用):生成式图像、音频和视频可被用于伪造身份、误导决策和制造虚假证据。
7. Operations and Governance Security(运营与治理安全)
聚焦制度、流程、权限、审计、合规、风险分级、人工复核和责任边界等组织管理问题。
- Policy and Role Governance(策略与角色治理):组织需要明确允许做什么、禁止做什么、谁能操作什么。
- Lifecycle Governance(生命周期治理):数据、模型、提示词、工具和版本更新都应纳入统一的变更与审批流程。
- Human Oversight and Accountability(人工监督与责任问责):关键决策、关键输出和高风险动作必须保留人工复核与责任归属。
- Compliance, Audit, and Evidence Management(合规、审计与证据管理):系统需要留下可审计、可追责、可复盘的证据链。
- Third-Party Governance(第三方治理):外部模型、云服务、插件供应商和数据提供方必须被纳入安全评估与合同约束。
8. Security Assurance and Defenses(安全保障与防御)
聚焦红队测试、评测基准、检测机制、过滤审查、沙箱隔离、监控告警和响应缓解等防御能力建设。
- Threat Modeling and Security Architecture(威胁建模与安全架构):在设计阶段识别攻击面、信任边界和高风险路径,才能避免后期补洞。
- AI Red Teaming and Adversarial Evaluation(AI 红队与对抗评测):通过系统化攻击测试暴露模型、数据、Agent 和系统层的真实弱点。
- Guardrails and Preventive Controls(护栏与预防控制):通过输入过滤、策略检查、最小权限和运行前校验来前置降低风险。
- Detection, Telemetry, and Monitoring(检测、遥测与监控):通过日志、告警、行为分析和异常检测持续发现攻击与失控迹象。
- Incident Response and Recovery(事件响应与恢复):在出现泄露、误调用、污染或越权后,要能快速止损、回滚和加固。