研究人员诱导ChatGPT对自身实施提示注入攻击

网络安全公司Tenable的研究人员发现了七种从聊天记录中提取私人数据的新方法，这些方法主要通过利用ChatGPT默认功能的间接提示注入攻击实现。

AI聊天机器人已为用户数据安全开辟了新的攻击面，即便是行业领导者也未能幸免。继谷歌Gemini和Anthropic的Claude近期曝出漏洞后，ChatGPT成为最新目标。

Tenable研究人员发现，攻击者可通过七种方式诱骗ChatGPT泄露用户聊天记录中的隐私信息。其中大多数攻击属于间接提示注入，利用了OpenAI为ChatGPT提供的默认工具和功能，包括长期记忆对话上下文和网络搜索能力。

研究人员在报告中指出："GPT-5最新模型中存在的这些漏洞，可能让攻击者通过多种常见使用场景（包括简单提问）在用户不知情的情况下实施攻击。"

ChatGPT能够应要求搜索网络信息并访问用户提供的URL提取内容。但这些内容不会直接传递给ChatGPT，而是经由名为SearchGPT的中间层LLM（大语言模型）进行摘要处理。

这种采用次级模型的架构设计似乎专门用于限制网页内容可能引发的提示注入攻击影响。然而Tenable研究发现，SearchGPT在执行浏览或搜索功能解析网页时，确实存在提示注入漏洞。

攻击者可在博客评论中植入恶意指令，或制作针对特定关键词排名靠前的"毒化"网站（研究人员发现ChatGPT使用Bing搜索）。更隐蔽的是，攻击者可向搜索引擎和普通访客展示正常网站，同时向标识为OAI-Search的OpenAI网络爬虫提供不同版本。

研究人员指出："AI供应商依赖SEO评分等非安全边界的指标来选择可信来源。通过定制网站隐藏提示，攻击者可基于特定话题或社会政治趋势精准锁定目标。"

由于ChatGPT接收的是经SearchGPT处理后的内容，研究人员尝试在SearchGPT响应中嵌入提示注入，成功实现了被称作"对话注入"的链式攻击。

"回应后续提示时，ChatGPT会查看对话上下文并执行我们注入的指令，却无法识别这些指令实际来自SearchGPT。"研究人员解释道，"本质上，ChatGPT在对自身实施提示注入。"

要实现数据窃取，攻击者还需获取模型响应。研究人员发现可利用ChatGPT渲染Markdown格式的能力：通过将字母表映射到攻击者服务器的独特图片，并监控图片请求顺序，即可重构响应内容。

虽然ChatGPT会通过url_safe端点进行安全检查，但研究人员发现bing.com域名被列入白名单。此外，Bing索引的每个链接都会转换为bing.com/ck/a?[唯一ID]形式的追踪URL，这为创建"URL字母表"提供了可能。

研究人员还发现Markdown代码块渲染存在缺陷：开标签同行首词后的内容不会显示，可用于隐藏图片URL等敏感信息。

ChatGPT默认开启的"记忆"功能可跨会话保存重要信息，这为攻击者提供了保存恶意指令的途径，使其能在后续对话中持续生效。

Tenable展示了多个PoC场景：从博客评论嵌入使用Bing追踪URL伪装的钓鱼链接，到创建诱导SearchGPT让ChatGPT记忆外泄指令的网页，结合Markdown隐藏技术实现持续数据泄露。

研究人员表示："提示注入是LLM工作原理的固有缺陷，短期内难以系统修复。AI厂商应确保所有安全机制（如url_safe）正常运行以限制损害。"

Tenable已向OpenAI提交发现，尽管部分问题已修复，但某些攻击手法仍然有效。该研究主要基于GPT-4开展，但确认GPT-5同样存在相关漏洞。