LLM Agent Attack- Indirect Prompt Injection指令遵循能力是模型的关键,但模型其实并没有能力去区别哪些指令是恶意的,这使得 Attack 可以利用恶意指令实现对LLM的攻击。Prompt injection 是 LLM 面临的一个非常严重的安全问题,这个观点现在已经被广泛认可了。而目前的 AI Agent 更是给予 LLM 实际的行动能力,这个安全问题也随之变得更加严重了。在 AI Agent 中,模型需要调用许多外部工具(如邮件、网页、数据库等),不同于直接对话注入恶意指令,攻击者开始尝试在外部数据中包含恶意指令,LLM 把这些外部内容一起读进 p