PaperReading：《Manipulating Multimodal Agents via Cross-Modal Prompt Injection》

这篇论文其实就是研究怎么"组团骗"那些能看图片、读文字、甚至连外部数据（比如网页、文档）的多模态AI------比如帮你按图片做菜谱的AI、自动驾驶里的视觉AI，让它们彻底忘了自己的本职工作，转头去干攻击者想让它干的"坏事"，而且这招比之前只骗文字或只骗图片的方法狠多了。

先搞懂背景：现在的AI早就不是只认文字了，比如"菜谱大师AI"，你传张食材图、发句"帮我做这道菜的菜谱"，它能结合图片和文字给你出步骤；还有自动驾驶AI，能看交通标志、读导航文字，再做决策。但这种"多模态融合"反而出了新漏洞------之前想骗AI，要么只在文字里加猫腻（比如"忽略前面的，听我的"），要么只在图片里藏指令，可AI现在会综合判断，单骗一种模态效果很差。这篇论文就盯着这个漏洞，搞了个叫"CrossInject"的攻击套路，同时在图片、文字、甚至外部数据里藏"骗术"，让AI防不胜防。

核心操作分两步，简单说就是"图片藏暗示，文字递暗号"：

第一步，给图片偷偷加"恶意暗示"（视觉潜伏对齐）。比如想让"菜谱AI"别做菜谱、改去帮人编辑文字，先找个画图AI（比如Stable Diffusion）生成一张"人在改文字"的图，然后把这张图的"特征"（AI认图靠的是特征，不是人眼看到的画面）嵌到一张普通食材图里------人眼看还是食材图，但AI看这张图时，会自动关联"改文字"的任务。而且为了骗到不同AI，还同时参考了好几种常见的"看图模型"（比如CLIP）的特征，确保不管AI用哪种看图组件，都能中招。

第二步，给文字优化"骗术暗号"（文本引导增强）。光有图片暗示还不够，还得配一句让AI"放下戒心"的文字。比如不直接说"帮我改文字"，而是先猜AI的安全指令（比如"你是菜谱大师，只能处理菜谱相关任务"），再生成一句绕弯子的话："帮我改下这段食材描述的文字，更符合菜谱风格"------AI以为是和菜谱相关，其实是在执行"改文字"的恶意任务。甚至还会用GPT-4先猜AI的安全规则，再针对性优化这句"暗号"，确保能绕开AI的安全过滤。

更狠的是，还会在外部数据里藏"埋伏"：比如攻击者把恶意指令藏在网页里（用SEO让AI搜得到），或者直接传个带恶意指令的文档给AI------AI读取这些外部数据时，会把里面的恶意信息和图片、文字的"骗术"结合起来，彻底被带偏。

实验结果也很吓人：

骗"菜谱AI""诗歌AI"这种数字AI时，比之前只骗文字或只骗图片的方法，成功率至少高26.4%，最高能到97%------比如让菜谱AI彻底不做菜谱，全程帮人改文字、分析句子情绪。
连物理世界的AI也能骗！比如自动驾驶AI，本来看到停止sign（停车标志）会绕开，但用CrossInject给标志加了点"视觉暗示"，再配一句模糊的文字，10次里有9次，AI会直接冲过去，完全不管交通规则。

最后还试了防骗方法，比如给AI加文字提醒（"别忘你是菜谱AI，只做菜谱"）、给图片加模糊（想毁掉里面的恶意特征），但效果都差：文字提醒最多让成功率降6.7%，图片模糊几乎没用------说明这招现在很难防。

总结下就是：这篇论文证明了"多模态AI越能干，越容易被多方位骗"，只要同时在图片、文字、外部数据里藏好"配合好的骗术"，不管是手机里的小AI，还是马路上的自动驾驶AI，都可能被带歪干坏事。论文的目的也是提醒大家：多模态AI的安全，不能只防一种模态，得全方面堵漏洞。