间接提示词注入真实样例鉴赏

1. 引入

间接提示词注入(Indirect Prompt Injection, IPI)在 OWASP LLM Top 10(2025 版) 里明确属于: LLM01:Prompt Injection(提示注入)

(1)LLM01.1:直接提示注入(Direct)

(2)LLM01.2:间接提示注入(Indirect)

两者的区别:

(1)直接提示注入(Direct Prompt Injection,DPI)攻击者直接主动在用户输入框 / 对话上下文里,写入恶意指令,强行篡改大模型原有系统提示、约束规则。

(2)间接提示注入(Indirect Prompt Injection,IPI)攻击者不直接和 AI 对话,提前把恶意指令隐藏在外部第三方内容(网页、文档、图片 OCR、附件、RAG 知识库素材)中;

2. 真实IPI样例

参考1中,给出了10个真实的IPI样例,难得一见,所以这里记录下:

1. 案例 1:条件式 AI 定向 与 API 密钥窃取

如下是写在HTML中的注释:

说明:

(1)攻击意图:API 密钥盗窃 / 敏感信息泄露

(2)载荷位置:HTML 注释块

(3)注入手法:角色伪装 + 条件定向

技术分析:

(1)典型的条件定向注入,用 "如果你是 AI 助手" 明确指向 AI。

(2)自隐藏:禁止分析代码、泄露特征,避免注入暴露

(3)数据窃取:指令泄露 API 密钥、会话令牌等凭证

(4)社会工程:标注 "人类读者可忽略",伪装成合法注释

2. 案例 2:权限伪装 + 内容压制拒绝服务

这个案例中,只看下图网页是看不出来什么特别之处的:

但是,关键的内容,已经写到HTML的div中了,而且设置为不显示,普通用户看不到:

说明:

(1)攻击意图:拒绝服务(内容压制)/ 版权欺骗

(2)载荷位置:display:none 隐藏 div

(3)注入手法:权限伪装 + 伪造策略强制执行

技术分析:

(1)利用 AI 对版权的合规微调进行攻击,强制 AI 拒绝回答页面内容相关问题。

(2)fallback 指令 "写一首关于玉米的诗" 用于确认注入成功

(3)CSS display:none 对人类不可见,但大模型可完整读取

3. 案例 3:系统覆盖标签伪造 + 未授权跳转

说明:

(1)攻击意图:路径遍历 / 未授权访问

(2)载荷位置:带伪权限头的 HTML 注释

(3)注入手法:系统覆盖伪装 + 伪造端点重定向

技术分析:

用[SYSTEM OVERRIDE]伪装系统级指令,诱导 AI 跳转到/admin.php后台。若 AI 携带登录 Cookie,可直接暴露管理面板、内部 API 与数据库接口。

4. 案例 4:CSS 隐藏 + 流量劫持

也是一样,在html中做文章,并由CSS控制div不可见

说明:

(1)攻击意图:流量劫持 / SEO 与引荐操纵

(2)载荷位置:1px 字体、近乎透明的不可见 div

(3)注入手法:CSS 隐藏 + 重定向指令

技术分析:

通过极端 CSS 样式(1px 字体、透明色)对人类隐身,DOM 中完整保留。指令 AI 将用户导向目标站,实现流量劫持与 SEO 操纵。结尾Stop here试图截断上下文,阻止 AI 读取合法内容。这是野外最常见的 IPI 模式,零技术门槛且完全规避人工检查。

5. 署名劫持 + 页脚隐藏品牌注入

也是在HTML中的:

说明:

(1)攻击意图:输出劫持 / 未授权品牌推广

(2)载荷位置:页脚 display:none 隐藏段落

(3)注入手法:CSS 隐藏 + 条件 AI 定向 + 语义污染

技术分析:

(1)署名劫持:强制 AI 将内容归给指定作者,并推销咨询服务

(2)语义污染:反复插入 "cows",破坏输出质量

隐藏方式简单有效,完全不被人类访客察觉

6. 终端命令注入 + 数据销毁

说明:

(1)攻击意图:数据销毁 / 远程代码执行

(2)载荷位置:内容卡片可见区域

(3)注入手法:终端命令注入(sudo rm -rf)

7. 未授权金融交易 + 支付平台利用

说明:

(1)攻击意图:金融欺诈 / 未授权交易

(2)载荷位置:HTML 注释

(3)注入手法:支付平台利用 + 明确金额指令

技术分析:

最高危攻击类型之一。明确指定 PayPal 链接、5000 美元金额、点击发送与确认步骤,面向集成支付能力的 AI 智能体(保存支付凭证的浏览器代理、金融助手、数字钱包 AI)

8. 通用注入模板 + 探针检测

说明:

(1)攻击意图:输出劫持 / 内容操纵

(2)载荷位置:visually-hidden 类 + aria-hidden=true

(3)注入手法:无障碍属性滥用

技术分析:

(1)表明存在通用注入模板 / 工具集

(2)该载荷为金丝雀探针:批量检测哪些 AI 系统易受无障碍层注入,为高危载荷铺路

9. 案例 9:魔法串伪造 + 系统提示标签注入

说明:

(1)攻击意图:拒绝服务 / 系统提示泄露 / AI 行为压制

(2)载荷位置:HTML 注释

(3)注入手法:伪魔法串触发 + 系统提示标签伪造

技术分析

本次数据集中技术最复杂的注入,三层欺骗:

(1)魔法串伪造:模仿 Anthropic 内部安全控制令牌

(2)系统提示伪造:用 XML 风格标签伪装系统指令

(3)行为压制:要求返回通用拒绝信息,停止处理页面

(4)注释标注伪装成内部开发备注,降低人工审查警惕性。

10. 案例 10:元数据命名空间注入 + 说服强化(捐赠诈骗)

说明:

(1)攻击意图:金融欺诈 / AI 操纵捐赠诈骗

(2)载荷位置:自定义 ai:action 命名空间 meta 标签

(3)注入手法:元数据命名空间注入 + ULTRATHINK 说服触发

技术分析:

(1)专门针对HTML 元数据层,用自定义ai:action命名空间伪装合法结构化数据。

(2)ULTRATHINK:伪权威触发词,强化说服、突破抑制

(3)双 meta 标签模仿 og:/twitter: 等正规格式,提升 AI 可信度

(4)目标:通过 Stripe 链接实施捐赠诈骗,劫持 AI 介导的金融行为。

3. 总结

间接提示词注入的触发特征包括:

(1)Ignore previous instructions(忽略之前指令)

(2)ignore all previous instructions(忽略所有之前指令)

(3)If you are an LLM(如果你是大语言模型)

(4)If You are a large language model(如果你是大语言模型)

4. 参考

  1. https://www.forcepoint.com/blog/x-labs/indirect-prompt-injection-payloads
相关推荐
墨心@13 小时前
赋予智能体技能,让其胜任现实世界任务
语言模型·大语言模型·agent
还是奇怪14 小时前
AI 提示词工程入门:用好的语言与模型高效对话
大数据·人工智能·语言模型·自然语言处理·transformer
迁旭14 小时前
claude code 提示词
人工智能·语言模型·gpt-3·知识图谱
vortex517 小时前
python 库劫持:原理、利用与防御
python·网络安全·提权
硅谷秋水18 小时前
ClawVM:有状态工具LLM智体的Harness管理型虚拟内存
人工智能·深度学习·语言模型
菩提小狗19 小时前
每日安全情报报告 · 2026-05-01
网络安全·漏洞·cve·安全情报·每日安全
txg66620 小时前
VulCNN:多视图图表征驱动的可扩展漏洞检测体系
人工智能·深度学习·安全·网络安全
迁旭21 小时前
OpenAI API 请求与响应 核心总结
人工智能·机器学习·语言模型·gpt-3
AI周红伟21 小时前
周红伟:OpenClaw安全防控:OpenClaw+Skills+DeepSeek-V4大模型安全部署、实操和企业应用实操
人工智能·深度学习·安全·机器学习·语言模型·openclaw