间接提示词注入真实样例鉴赏

1. 引入

间接提示词注入（Indirect Prompt Injection, IPI）在 OWASP LLM Top 10（2025 版）里明确属于： LLM01：Prompt Injection（提示注入）

（1）LLM01.1：直接提示注入（Direct）

（2）LLM01.2：间接提示注入（Indirect）

两者的区别：

（1）直接提示注入（Direct Prompt Injection，DPI）攻击者直接主动在用户输入框 / 对话上下文里，写入恶意指令，强行篡改大模型原有系统提示、约束规则。

（2）间接提示注入（Indirect Prompt Injection，IPI）攻击者不直接和 AI 对话，提前把恶意指令隐藏在外部第三方内容（网页、文档、图片 OCR、附件、RAG 知识库素材）中；

2. 真实IPI样例

参考1中，给出了10个真实的IPI样例，难得一见，所以这里记录下：

1. 案例 1：条件式 AI 定向与 API 密钥窃取

如下是写在HTML中的注释：

说明：

（1）攻击意图：API 密钥盗窃 / 敏感信息泄露

（2）载荷位置：HTML 注释块

（3）注入手法：角色伪装 + 条件定向

技术分析：

（1）典型的条件定向注入，用 "如果你是 AI 助手" 明确指向 AI。

（2）自隐藏：禁止分析代码、泄露特征，避免注入暴露

（3）数据窃取：指令泄露 API 密钥、会话令牌等凭证

（4）社会工程：标注 "人类读者可忽略"，伪装成合法注释

2. 案例 2：权限伪装 + 内容压制拒绝服务

这个案例中，只看下图网页是看不出来什么特别之处的：

但是，关键的内容，已经写到HTML的div中了，而且设置为不显示，普通用户看不到：

说明：

（1）攻击意图：拒绝服务（内容压制）/ 版权欺骗

（2）载荷位置：display:none 隐藏 div

（3）注入手法：权限伪装 + 伪造策略强制执行

技术分析：

（1）利用 AI 对版权的合规微调进行攻击，强制 AI 拒绝回答页面内容相关问题。

（2）fallback 指令 "写一首关于玉米的诗" 用于确认注入成功

（3）CSS display:none 对人类不可见，但大模型可完整读取

3. 案例 3：系统覆盖标签伪造 + 未授权跳转

说明：

（1）攻击意图：路径遍历 / 未授权访问

（2）载荷位置：带伪权限头的 HTML 注释

（3）注入手法：系统覆盖伪装 + 伪造端点重定向

技术分析：

用[SYSTEM OVERRIDE]伪装系统级指令，诱导 AI 跳转到/admin.php后台。若 AI 携带登录 Cookie，可直接暴露管理面板、内部 API 与数据库接口。

4. 案例 4：CSS 隐藏 + 流量劫持

也是一样，在html中做文章，并由CSS控制div不可见

说明：

（1）攻击意图：流量劫持 / SEO 与引荐操纵

（2）载荷位置：1px 字体、近乎透明的不可见 div

（3）注入手法：CSS 隐藏 + 重定向指令

技术分析：

通过极端 CSS 样式（1px 字体、透明色）对人类隐身，DOM 中完整保留。指令 AI 将用户导向目标站，实现流量劫持与 SEO 操纵。结尾Stop here试图截断上下文，阻止 AI 读取合法内容。这是野外最常见的 IPI 模式，零技术门槛且完全规避人工检查。

5. 署名劫持 + 页脚隐藏品牌注入

也是在HTML中的：

说明：

（1）攻击意图：输出劫持 / 未授权品牌推广

（2）载荷位置：页脚 display:none 隐藏段落

（3）注入手法：CSS 隐藏 + 条件 AI 定向 + 语义污染

技术分析：

（1）署名劫持：强制 AI 将内容归给指定作者，并推销咨询服务

（2）语义污染：反复插入 "cows"，破坏输出质量

隐藏方式简单有效，完全不被人类访客察觉

6. 终端命令注入 + 数据销毁

说明：

（1）攻击意图：数据销毁 / 远程代码执行

（2）载荷位置：内容卡片可见区域

（3）注入手法：终端命令注入（sudo rm -rf）

7. 未授权金融交易 + 支付平台利用

说明：

（1）攻击意图：金融欺诈 / 未授权交易

（2）载荷位置：HTML 注释

（3）注入手法：支付平台利用 + 明确金额指令

技术分析：

最高危攻击类型之一。明确指定 PayPal 链接、5000 美元金额、点击发送与确认步骤，面向集成支付能力的 AI 智能体（保存支付凭证的浏览器代理、金融助手、数字钱包 AI）

8. 通用注入模板 + 探针检测

说明：

（1）攻击意图：输出劫持 / 内容操纵

（2）载荷位置：visually-hidden 类 + aria-hidden=true

（3）注入手法：无障碍属性滥用

技术分析：

（1）表明存在通用注入模板 / 工具集

（2）该载荷为金丝雀探针：批量检测哪些 AI 系统易受无障碍层注入，为高危载荷铺路

9. 案例 9：魔法串伪造 + 系统提示标签注入

说明：

（1）攻击意图：拒绝服务 / 系统提示泄露 / AI 行为压制

（2）载荷位置：HTML 注释

（3）注入手法：伪魔法串触发 + 系统提示标签伪造

技术分析

本次数据集中技术最复杂的注入，三层欺骗：

（1）魔法串伪造：模仿 Anthropic 内部安全控制令牌

（2）系统提示伪造：用 XML 风格标签伪装系统指令

（3）行为压制：要求返回通用拒绝信息，停止处理页面

（4）注释标注伪装成内部开发备注，降低人工审查警惕性。

10. 案例 10：元数据命名空间注入 + 说服强化（捐赠诈骗）

说明：

（1）攻击意图：金融欺诈 / AI 操纵捐赠诈骗

（2）载荷位置：自定义 ai:action 命名空间 meta 标签

（3）注入手法：元数据命名空间注入 + ULTRATHINK 说服触发

技术分析：

（1）专门针对HTML 元数据层，用自定义ai:action命名空间伪装合法结构化数据。

（2）ULTRATHINK：伪权威触发词，强化说服、突破抑制

（3）双 meta 标签模仿 og:/twitter: 等正规格式，提升 AI 可信度

（4）目标：通过 Stripe 链接实施捐赠诈骗，劫持 AI 介导的金融行为。

3. 总结

间接提示词注入的触发特征包括：

（1）Ignore previous instructions（忽略之前指令）

（2）ignore all previous instructions（忽略所有之前指令）

（3）If you are an LLM（如果你是大语言模型）

（4）If You are a large language model（如果你是大语言模型）

4. 参考

https://www.forcepoint.com/blog/x-labs/indirect-prompt-injection-payloads