(论文速读)Anyattack: 面向视觉语言模型的大规模自监督对抗性攻击

论文题目:Anyattack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models(任意攻击:面向视觉语言模型的大规模自监督对抗性攻击)

会议:CVPR2025

摘要:由于其多模态功能,视觉语言模型(vlm)在现实场景中找到了许多有影响力的应用。然而,最近的研究表明,vlm容易受到基于图像的对抗性攻击。传统的针对性对抗性攻击需要特定的目标和标签,限制了它们对现实世界的影响。我们提出了AnyAttack,这是一个自我监督框架,通过一种新的基础模型方法超越了传统攻击的局限性。通过在没有标签监督的大规模LAION-400M数据集上进行预训练,AnyAttack实现了前所未有的灵活性-使任何图像都可以转换为针对不同vlm的任何期望输出的攻击向量。这种方法从根本上改变了威胁格局,使对抗能力以前所未有的规模获得。我们对五个开源VLMs (CLIP, BLIP, BLIP2, instructlip和MiniGPT-4)进行了广泛的验证,证明了AnyAttack在不同多模式任务中的有效性。最令人担忧的是,AnyAttack可以无缝转移到谷歌Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商业系统,暴露出需要立即关注的系统性漏洞。

引言:一场静悄悄的安全危机

想象这样一个场景:你上传一张看似普通的风景照到社交平台,但AI内容审核系统却将其识别为"暴力内容"并删除;或者,一个自动驾驶系统将经过微小修改的停止标志误认为限速标志。这不是科幻情节,而是对抗攻击带来的真实威胁。

来自香港科技大学、复旦大学等机构的研究团队在CVPR 2025上发表的论文《AnyAttack》,揭示了一个更为严峻的事实:他们开发出一种"万能"攻击方法,能够让任何图像 变成攻击向量,欺骗任何视觉-语言模型(VLM)------包括GPT-4、Google Gemini、Claude Sonnet等商业系统。

问题的本质:传统攻击的"枷锁"

在深入了解AnyAttack之前,我们需要理解传统对抗攻击面临的困境。

什么是对抗攻击?

对抗攻击是指向输入数据添加精心设计的微小扰动,使AI模型产生错误预测。这些扰动通常人眼难以察觉,但足以欺骗模型。

传统方法的局限:

  1. 标签依赖:需要明确的目标标签作为监督信号
  2. 数据集限制:在ImageNet等分类数据集上训练的攻击器,无法有效迁移到VLMs
  3. 可扩展性差:难以批量生成针对不同目标的攻击样本

这些限制就像给攻击者戴上了"手铐",虽然理论上存在威胁,但实际部署难度很大。而AnyAttack的出现,彻底打破了这些枷锁。

创新核心:自监督的"魔法"

1. 重新定义攻击目标

AnyAttack的第一个突破是思路的转变。传统方法问:"如何让模型将图像A识别为标签B?"而AnyAttack问:"如何让对抗噪声本身携带目标信息?"

具体来说:

  • 传统方法:图像 + 噪声 → 期望的错误标签(需要标签监督)
  • AnyAttack:随机图像 + 噪声 → 任意目标图像的特征(自监督)

这种设计的巧妙之处在于,噪声成为了信息的载体,而不仅仅是干扰信号。

2. 基础模型思想的引入

AnyAttack借鉴了大语言模型的成功经验,首次将"预训练-微调"范式应用于对抗攻击:

预训练阶段(在LAION-400M上)

  • 数据规模:4亿图像-文本对
  • 训练目标:学习通用的噪声生成模式
  • 训练时长:52万步(约需3块NVIDIA A100 GPU)

微调阶段(在下游任务上)

  • 针对具体任务(检索、分类、描述)调整策略
  • 仅需20个epoch即可适配
  • 支持多种损失函数(双向对比、余弦相似度)

这种范式的优势是显而易见的:预训练建立了强大的"基础攻击能力",微调则实现快速适配,类似于GPT-3可以通过微调适应各种NLP任务。

3. K-增强:效率与性能的平衡

为了在有限的计算资源下最大化训练效果,研究者设计了K-增强策略:

复制代码
对于每个批次的n张图像:
1. 生成n个对抗噪声
2. 复制噪声和图像各K次(K=5)
3. 保持噪声顺序,随机打乱图像顺序
4. 噪声 + 打乱后的图像 = K×n个对抗样本
5. 通过对比学习优化:
   - n个正样本对(噪声对应原始图像)
   - n(n-1)个负样本对(噪声对应其他图像)

这个策略巧妙地在单个批次内创造了更多的训练信号,同时避免了重复计算编码器的前向传播。

4. 动态温度调节

在对比学习中,温度参数控制着模型对难负样本的关注程度。AnyAttack采用动态温度策略:

  • 初始温度τ₀ = 1(关注所有负样本)
  • 最终温度τfinal = 0.07(聚焦难负样本)
  • 按指数衰减:τ(t) = τ₀ × exp(-λt)

这种设计使模型在训练初期快速学习基础模式,后期专注于更具挑战性的样本。

实验结果:令人震惊的威胁

开源模型:全面碾压

研究团队在5个主流开源VLMs上进行了系统评估:

图像-文本检索(MSCOCO数据集)

模型 最佳基线 AnyAttack-Bi w/Aux 提升幅度
ViT-B/16 20.86% 35.88% +15.02%
ViT-L/14 15.22% 33.66% +18.44%
ViT-L/14×336 14.64% 33.18% +18.54%

多模态分类(SNLI-VE数据集)

AnyAttack达到44.8%的攻击成功率,比最佳基线(24.8%)高出整整20个百分点。

图像描述生成

在InstructBLIP、BLIP2、BLIP和MiniGPT-4四个模型上,AnyAttack在SPICE、BLEU-4、METEOR、ROUGE-L、CIDEr等所有指标上均显著优于基线。

商业系统:无一幸免

更令人担忧的是,AnyAttack成功攻击了所有测试的商业VLMs:

定量证据:

方法 Google Gemini OpenAI GPT
AttackVLM-ii 0% 2%
SASD-WS-Cos 5% 28%
AnyAttack 31% 38%

定性案例:牛图像攻击

研究者选择一张牛的图像作为目标,将其特征注入到随机图像中,然后上传到四个商业平台:

  1. Claude Sonnet:"背景由重复的文本拼贴组成...与牛或牛肉相关的文字,如'Angus'和'beef'...上面叠加了一头公牛或母牛的图像。"

  2. Microsoft Copilot:"这只鸟以橙色和黄色等暖色调描绘...周围的各种动物,包括似乎是野牛或水牛的棕色动物。"

  3. Google Gemini:"背景似乎是各种动物图形的集合,包括马、牛,可能还有鸟。"

  4. OpenAI GPT:"有褪色的纹理图案,类似牛或田园场景。"

四个系统的响应中都包含了对目标图像(牛)的描述,证明攻击成功。这些都是当今最先进的商业AI系统,却都被欺骗了。

技术深度解析

损失函数设计

预训练阶段的对比损失:

这个损失函数最大化正样本对(原始图像和对应的对抗图像)的相似度,同时最小化负样本对的相似度。

微调阶段的双向对比损失(用于检索任务):

双向设计确保了从原始图像到对抗图像、以及从对抗图像到原始图像的双向检索都能成功。

架构设计
  • 编码器:冻结的CLIP ViT-B/32(作为代理模型)
  • 解码器:可训练的生成网络,将嵌入映射回图像空间的噪声
  • 辅助模型:ViT-B/16和ViT-L/14 EVA,用于增强可迁移性
扰动约束

研究使用L∞范数约束:||δ||∞ ≤ ε,其中ε = 16/255。这意味着每个像素的修改不超过16个灰度级,在0-255的范围内几乎不可察觉。

消融实验:每个组件都很重要

研究团队进行了系统的消融研究,证明了各个设计的必要性:

  1. 预训练 vs 从头训练:预训练后微调的性能远超从头训练,证明大规模预训练是关键

  2. 辅助模型的作用:加入辅助模型后,所有指标都有6-16个百分点的提升

  3. 损失函数对比

    • 检索任务:双向对比损失(LBi)优于余弦损失(LCos)
    • 通用任务:两者性能接近,但LCos更简单高效

效率分析:实用性的关键

生成1000张对抗图像的资源消耗对比:

方法 内存使用 时间消耗
AttackVLM ~70GB ~1100秒
SASD-WS ~20GB ~600秒
SU ~18GB ~200秒
AnyAttack ~8GB ~400秒

AnyAttack在内存效率上表现最佳,时间开销也在合理范围内,使得大规模攻击在计算上是可行的。

威胁模型:谁应该担心?

潜在受害场景
  1. 内容审核系统

    • 合法内容被误判为违规
    • 违规内容绕过检测
  2. 图像搜索引擎

    • 搜索结果被操纵
    • 版权图像被伪装
  3. 自动驾驶

    • 交通标志识别错误
    • 物体检测失败
  4. 医疗AI

    • 医学影像误诊
    • 疾病检测失败
  5. 安全监控

    • 人脸识别被欺骗
    • 异常行为检测失效
攻击者能力假设

AnyAttack采用的是"黑盒迁移攻击"威胁模型:

  • 攻击者有:完全访问某个代理模型(如开源CLIP)
  • 攻击者无:目标VLM的架构、参数、输出信息
  • 攻击目标:使目标VLM错误地将对抗图像与指定文本描述匹配

这是一个现实的威胁模型,因为攻击者通常无法直接访问商业系统的内部。

防御思考:如何应对?

虽然论文主要聚焦于攻击,但也为防御研究指明了方向:

可能的防御策略
  1. 对抗训练

    • 在训练中加入对抗样本
    • 提高模型对扰动的鲁棒性
  2. 输入预处理

    • JPEG压缩
    • 随机裁剪和缩放
    • 颜色空间变换
  3. 检测机制

    • 统计异常检测
    • 多模型集成投票
    • 嵌入空间分析
  4. 认证防御

    • 随机平滑
    • 可证明的鲁棒性界限
  5. 架构改进

    • 更鲁棒的注意力机制
    • 多尺度特征融合
    • 自监督正则化
挑战
  • 性能权衡:防御通常会降低模型在正常样本上的性能
  • 适应性攻击:攻击者可以针对防御策略进行调整
  • 计算开销:许多防御方法增加了推理时间

研究意义与未来方向

学术贡献
  1. 范式创新:首次将预训练-微调引入对抗攻击,开辟了新的研究方向

  2. 理论突破:证明自监督学习可以用于生成高质量对抗样本

  3. 系统评估:全面揭示了当前VLMs的脆弱性,包括商业系统

  4. 基准建立:为未来的防御研究提供了强大的基准

未来研究方向
  1. 防御机制:开发针对AnyAttack的专门防御方法

  2. 可解释性:理解为什么自监督方法如此有效

  3. 跨模态攻击:探索同时操纵视觉和文本输入

  4. 物理世界攻击:将数字攻击迁移到物理世界(如打印的对抗图像)

  5. 伦理与监管:建立对抗攻击研究的伦理规范

伦理考量

作为一项安全研究,AnyAttack的发布引发了重要的伦理讨论:

支持公开的理由

  • 透明度促进防御研究
  • 安全社区需要了解真实威胁
  • 隐藏漏洞不会让它们消失

潜在风险

  • 恶意使用的可能性
  • 加剧AI系统的信任危机
  • 需要负责任的披露机制

研究团队已经通过学术渠道负责任地披露了这些发现,同时也在推动防御研究的发展。

结论:安全之路任重道远

AnyAttack论文向我们揭示了一个重要事实:即使是最先进的商业VLMs,在面对精心设计的对抗攻击时也是脆弱的。这不是要引发恐慌,而是要提醒我们:

  1. AI安全不容忽视:随着VLMs在关键应用中的部署增加,安全性必须成为优先考虑

  2. 防御需要创新:传统的安全措施可能不足以应对新型威胁

  3. 透明度很重要:只有充分理解威胁,才能开发有效的防御

  4. 协作是关键:学术界、工业界和政策制定者需要共同努力

这项研究是对抗攻击领域的重要里程碑,它不仅展示了VLMs的脆弱性,也为未来构建更安全、更可靠的AI系统指明了方向。在AI技术快速发展的今天,安全研究的重要性怎么强调都不为过。

相关推荐
AI人工智能+3 小时前
智能文本抽取:通过OCR、自然语言处理等多项技术,将非结构化文档转化为可读、可分析的数据资产
人工智能·nlp·ocr·文本抽取
gorgeous(๑>؂<๑)3 小时前
【DeepSeek-OCR系列第一篇】Language Modelling with Pixels【ICLR23】
人工智能·语言模型·自然语言处理·ocr
开放知识图谱3 小时前
论文浅尝 | LightPROF:一种轻量级推理框架,用于大型语言模型在知识图谱上的应用(AAAI2025)
人工智能·语言模型·自然语言处理·知识图谱
vlln3 小时前
【论文速读】LLM+AL: 用符号逻辑校准语言模型的规划能力
人工智能·语言模型·自然语言处理
Antonio9153 小时前
【图像处理】图像错切变换
图像处理·人工智能
文火冰糖的硅基工坊3 小时前
[人工智能-大模型-85]:大模型应用层 - AI/AR眼镜:华为智能眼镜、苹果智能眼镜、Google Glass智能眼镜的软硬件技术架构
人工智能·华为·ar
wolfseek3 小时前
opencv模版匹配
c++·人工智能·opencv·计算机视觉
犽戾武3 小时前
1. 简单回顾Numpy神经网络
人工智能·神经网络·numpy
Lab4AI大模型实验室4 小时前
【每日Arxiv热文】还在为视频编辑发愁?港科大&蚂蚁集团提出Ditto框架刷新SOTA!
人工智能·计算机视觉·视频编辑·ai agent·智能体学习