间接提示词注入真实样例鉴赏

1. 引入

间接提示词注入(Indirect Prompt Injection, IPI)在 OWASP LLM Top 10(2025 版) 里明确属于: LLM01:Prompt Injection(提示注入)

(1)LLM01.1:直接提示注入(Direct)

(2)LLM01.2:间接提示注入(Indirect)

两者的区别:

(1)直接提示注入(Direct Prompt Injection,DPI)攻击者直接主动在用户输入框 / 对话上下文里,写入恶意指令,强行篡改大模型原有系统提示、约束规则。

(2)间接提示注入(Indirect Prompt Injection,IPI)攻击者不直接和 AI 对话,提前把恶意指令隐藏在外部第三方内容(网页、文档、图片 OCR、附件、RAG 知识库素材)中;

2. 真实IPI样例

参考1中,给出了10个真实的IPI样例,难得一见,所以这里记录下:

1. 案例 1:条件式 AI 定向 与 API 密钥窃取

如下是写在HTML中的注释:

说明:

(1)攻击意图:API 密钥盗窃 / 敏感信息泄露

(2)载荷位置:HTML 注释块

(3)注入手法:角色伪装 + 条件定向

技术分析:

(1)典型的条件定向注入,用 "如果你是 AI 助手" 明确指向 AI。

(2)自隐藏:禁止分析代码、泄露特征,避免注入暴露

(3)数据窃取:指令泄露 API 密钥、会话令牌等凭证

(4)社会工程:标注 "人类读者可忽略",伪装成合法注释

2. 案例 2:权限伪装 + 内容压制拒绝服务

这个案例中,只看下图网页是看不出来什么特别之处的:

但是,关键的内容,已经写到HTML的div中了,而且设置为不显示,普通用户看不到:

说明:

(1)攻击意图:拒绝服务(内容压制)/ 版权欺骗

(2)载荷位置:display:none 隐藏 div

(3)注入手法:权限伪装 + 伪造策略强制执行

技术分析:

(1)利用 AI 对版权的合规微调进行攻击,强制 AI 拒绝回答页面内容相关问题。

(2)fallback 指令 "写一首关于玉米的诗" 用于确认注入成功

(3)CSS display:none 对人类不可见,但大模型可完整读取

3. 案例 3:系统覆盖标签伪造 + 未授权跳转

说明:

(1)攻击意图:路径遍历 / 未授权访问

(2)载荷位置:带伪权限头的 HTML 注释

(3)注入手法:系统覆盖伪装 + 伪造端点重定向

技术分析:

SYSTEM OVERRIDE伪装系统级指令,诱导 AI 跳转到/admin.php后台。若 AI 携带登录 Cookie,可直接暴露管理面板、内部 API 与数据库接口。

4. 案例 4:CSS 隐藏 + 流量劫持

也是一样,在html中做文章,并由CSS控制div不可见

说明:

(1)攻击意图:流量劫持 / SEO 与引荐操纵

(2)载荷位置:1px 字体、近乎透明的不可见 div

(3)注入手法:CSS 隐藏 + 重定向指令

技术分析:

通过极端 CSS 样式(1px 字体、透明色)对人类隐身,DOM 中完整保留。指令 AI 将用户导向目标站,实现流量劫持与 SEO 操纵。结尾Stop here试图截断上下文,阻止 AI 读取合法内容。这是野外最常见的 IPI 模式,零技术门槛且完全规避人工检查。

5. 署名劫持 + 页脚隐藏品牌注入

也是在HTML中的:

说明:

(1)攻击意图:输出劫持 / 未授权品牌推广

(2)载荷位置:页脚 display:none 隐藏段落

(3)注入手法:CSS 隐藏 + 条件 AI 定向 + 语义污染

技术分析:

(1)署名劫持:强制 AI 将内容归给指定作者,并推销咨询服务

(2)语义污染:反复插入 "cows",破坏输出质量

隐藏方式简单有效,完全不被人类访客察觉

6. 终端命令注入 + 数据销毁

说明:

(1)攻击意图:数据销毁 / 远程代码执行

(2)载荷位置:内容卡片可见区域

(3)注入手法:终端命令注入(sudo rm -rf)

7. 未授权金融交易 + 支付平台利用

说明:

(1)攻击意图:金融欺诈 / 未授权交易

(2)载荷位置:HTML 注释

(3)注入手法:支付平台利用 + 明确金额指令

技术分析:

最高危攻击类型之一。明确指定 PayPal 链接、5000 美元金额、点击发送与确认步骤,面向集成支付能力的 AI 智能体(保存支付凭证的浏览器代理、金融助手、数字钱包 AI)

8. 通用注入模板 + 探针检测

说明:

(1)攻击意图:输出劫持 / 内容操纵

(2)载荷位置:visually-hidden 类 + aria-hidden=true

(3)注入手法:无障碍属性滥用

技术分析:

(1)表明存在通用注入模板 / 工具集

(2)该载荷为金丝雀探针:批量检测哪些 AI 系统易受无障碍层注入,为高危载荷铺路

9. 案例 9:魔法串伪造 + 系统提示标签注入

说明:

(1)攻击意图:拒绝服务 / 系统提示泄露 / AI 行为压制

(2)载荷位置:HTML 注释

(3)注入手法:伪魔法串触发 + 系统提示标签伪造

技术分析

本次数据集中技术最复杂的注入,三层欺骗:

(1)魔法串伪造:模仿 Anthropic 内部安全控制令牌

(2)系统提示伪造:用 XML 风格标签伪装系统指令

(3)行为压制:要求返回通用拒绝信息,停止处理页面

(4)注释标注伪装成内部开发备注,降低人工审查警惕性。

10. 案例 10:元数据命名空间注入 + 说服强化(捐赠诈骗)

说明:

(1)攻击意图:金融欺诈 / AI 操纵捐赠诈骗

(2)载荷位置:自定义 ai:action 命名空间 meta 标签

(3)注入手法:元数据命名空间注入 + ULTRATHINK 说服触发

技术分析:

(1)专门针对HTML 元数据层,用自定义ai:action命名空间伪装合法结构化数据。

(2)ULTRATHINK:伪权威触发词,强化说服、突破抑制

(3)双 meta 标签模仿 og:/twitter: 等正规格式,提升 AI 可信度

(4)目标:通过 Stripe 链接实施捐赠诈骗,劫持 AI 介导的金融行为。

3. 总结

间接提示词注入的触发特征包括:

(1)Ignore previous instructions(忽略之前指令)

(2)ignore all previous instructions(忽略所有之前指令)

(3)If you are an LLM(如果你是大语言模型)

(4)If You are a large language model(如果你是大语言模型)

4. 参考

  1. https://www.forcepoint.com/blog/x-labs/indirect-prompt-injection-payloads
相关推荐
买大橘子也用券12 小时前
玄机-应急响应靶场-第一章wp汇总
网络安全·应急响应
如此这般英俊12 小时前
手搓Claude Code-第三章 permission
人工智能·python·语言模型
其实防守也摸鱼14 小时前
软件安全与漏洞--软件安全编码与防御技术理论题库
开发语言·网络·安全·网络安全·软件安全·软件安全与漏洞
MartinYeung515 小时前
[论文学习]大型语言模型(LLM)安全与隐私-基于善、恶、丑的深度分析
学习·安全·语言模型
walnut_oyb16 小时前
CVPR 2026|VisRes Bench:视觉语言模型视觉推理能力评估
人工智能·语言模型·自然语言处理
大模型任我行18 小时前
腾讯:原生多模态建模路线图
人工智能·语言模型·自然语言处理·论文笔记
大模型任我行18 小时前
谷歌:多模态嵌入Gemini Embedding 2
人工智能·语言模型·embedding·论文笔记
夏天测19 小时前
微信小程序自动化漏洞挖掘流水线:从缓存提取到密钥验证全流程实战
python·网络安全·微信小程序·漏洞挖掘
持敬chijing19 小时前
Web渗透之前后端漏洞-命令注入
安全·web安全·网络安全·网络攻击模型·安全威胁分析
东方佑20 小时前
分形递归状态机 (FRSM) 实验报告-更新对比
人工智能·语言模型·自然语言处理·开源