ICCV2025 | 对抗样本&智能安全方向论文汇总 | 持续更新中~


汇总结果来源ICCV 2025 Accepted Papers

若文中出现的 论文链接GitHub链接 点不开,则说明还未公布,在公布后笔者会及时添加. 若笔者未及时添加,欢迎读者告知.

文章根据题目关键词搜索,可能会有遗漏. 若笔者出现遗漏,欢迎告知.

部分文章还未公布正文,只有名称.


利用自监督视觉Transformer特征提升生成对抗迁移性
Boosting Generative Adversarial Transferability with Self-supervised Vision Transformer Features

论文链接

GitHub链接

**摘要:**深度神经网络(DNN)的能力来自于从所提供的数据中提取和解释特征。通过利用DNN中的中间特征,而不是依赖硬标签,我们精心设计了对抗性扰动,使其能更有效地泛化,提升黑盒迁移性。在以往的工作中,这些特征普遍来自监督学习。受到自监督学习与Transformer架构之间卓越协同效应的启发,本文探究利用自监督视觉Transformer(ViT)表示是否能够提高对抗性迁移性。我们提出了dSVA------一种生成式双重自监督ViT特征攻击方法,它同时利用了对比学习(CL)中的全局结构特征和掩码图像建模(MIM)中的局部纹理特征,这两种是适用于ViT的自监督学习范式。我们设计了一种新颖的生成式训练框架,该框架包含一个生成器以创建黑盒对抗样本,以及通过利用联合特征和自监督ViT的注意力机制来训练生成器的策略。我们的研究结果表明,CL和MIM使ViT能够关注不同的特征趋势,当协同利用这些趋势时,具有很强的对抗泛化能力。通过破坏自监督ViT提炼出的双重深度特征,我们获得了显著的黑盒迁移性,能够迁移到各种架构的模型上,且性能优于现有技术水平。


探索机器人领域中视觉-语言-行动模型的对抗性漏洞
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics

论文链接

GitHub链接

**摘要:**最近在机器人领域,视觉-语言-行动(VLA)模型作为一种变革性方法应运而生,使机器人能够在端到端学习框架内整合视觉和语言输入,从而执行复杂任务。尽管 VLA 模型具备强大的能力,但它们也带来了新的攻击面,使其易受对抗攻击。鉴于这些漏洞在很大程度上尚未得到探索,本文系统地量化了基于VLA的机器人系统的稳健性。认识到机器人执行任务的独特需求,我们的攻击目标针对机器人系统固有的空间和功能特性。具体而言,我们引入了两个利用空间基础破坏机器人行动稳定性的无目标攻击目标,以及一个操纵机器人轨迹的有目标攻击目标。此外,我们设计了一种对抗补丁生成方法,在相机视野内放置一个小的彩色补丁,从而在数字和物理环境中有效地实施攻击。我们的评估显示,任务成功率显著下降,在一系列模拟机器人任务中降幅高达100%,这凸显了当前VLA架构中存在的关键安全漏洞。通过揭示这些漏洞并提出可行的评估指标,我们推动了对基于VLA的机器人系统安全性的理解和提升,强调了在实际世界部署之前持续开发强大防御策略的必要性。


一个扰动足矣:针对视觉语言预训练模型生成通用对抗扰动
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

论文链接

GitHub链接

摘要:


利用合成数据扩展和驾驭对抗训练
Scaling and Taming Adversarial Training with Synthetic Data

论文链接

GitHub链接

摘要:


基于对抗鲁棒记忆的持续学习器
Adversarial Robust Memory-Based Continual Learner

论文链接

GitHub链接

摘要:


通过梯度引导采样平衡探索与利用来增强对抗迁移性
Enhancing Adversarial Transferability by Balancing Exploration and Exploitation with Gradient-Guided Sampling

论文链接

GitHub链接

**摘要:**对抗攻击对深度神经网络的鲁棒性构成了严峻挑战,尤其是在不同模型架构的迁移场景中。然而,对抗攻击的可迁移性在利用(最大化攻击效力)和探索(增强跨模型泛化能力)之间面临着一个基本困境。传统的基于动量的方法过度优先考虑利用,即通过更高的损失最大值来提高攻击效力,但泛化能力会减弱(损失面变窄)。相反,最近采用内迭代采样的方法则过度优先考虑探索,即为了实现跨模型泛化而使损失面更平坦,但攻击效力会减弱(局部最大值次优)。为了解决这一困境,我们提出了一种简单而有效的梯度引导采样(GGS)方法,该方法通过沿梯度上升方向引导采样来协调这两个目标,从而提高采样效率和稳定性。具体而言,基于MI - FGSM,GGS引入内迭代随机采样,并利用前一次内迭代的梯度来引导采样方向(采样幅度由随机分布决定)。这种机制促使对抗样本处于平衡区域,既具有平坦性以实现跨模型泛化,又具有较高的局部最大值以获得强大的攻击效力。在多种深度神经网络架构和多模态大语言模型(MLLM)上进行的综合实验表明,我们的方法优于当前最先进的迁移攻击方法。


通过李雅普诺夫指数引导优化实现单域泛化的对抗性数据增强
Adversarial Data Augmentation for Single Domain Generalization via Lyapunov Exponent-Guided Optimization

论文链接

GitHub链接

摘要:


基于属性感知文本反演的提示驱动的行人重识别可迁移对抗攻击
Prompt-driven Transferable Adversarial Attack on Person Re-Identification with Attribute-aware Textual Inversion

论文链接

GitHub链接

摘要:


一物体,多谎言:统一视觉语言模型跨任务对抗攻击基准
One Object, Multiple Lies: A Benchmark for Cross-task Adversarial Attack on Unified Vision-Language Models

论文链接

GitHub链接

摘要:


PBCAT:基于补丁的复合对抗训练,抵御针对目标检测的物理可实现攻击
PBCAT: Patch-based composite adversarial training against physically realizable attacks on object detection

论文链接

GitHub链接

摘要:


大型目标检测Transformer的对抗注意力扰动
Adversarial Attention Perturbations for Large Object Detection Transformers

论文链接

GitHub链接

摘要:


3D高斯溅射驱动的多视图鲁棒物理对抗伪装生成
3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation

论文链接

GitHub链接

摘要:


自动提示:通过大语言模型驱动的对抗性提示对文本转图像模型进行自动化红队测试
AutoPrompt: Automated Red-Teaming of Text-to-Image Models via LLM-Diven Adversarial Prompts

论文链接

GitHub链接

摘要:


用于物理目标检测规避的梯度重加权对抗性伪装
Gradient-Reweighted Adversarial Camouflage for Physical Object Detection Evasion

论文链接

GitHub链接

摘要:


通过超分辨率和扩散进行对抗净化
Adversarial Purification via Super-Resolution and Diffusion

论文链接

GitHub链接

摘要:


SMP攻击:利用语义感知多粒度Patchout提升基于特征重要性的对抗攻击的可迁移性
SMP-Attack: Boosting the Transferability of Feature Importance-based Adversarial Attack with Semantics-aware Multi-granularity Patchout

论文链接

GitHub链接

摘要:


通过逆目标梯度竞争和空间距离拉伸增强定向对抗样本的可迁移性
Enhancing Transferability of Targeted Adversarial Examples via Inverse Target Gradient Competition and Spatial Distance Stretching

论文链接

GitHub链接

摘要:


用于提升掌纹识别的统一对抗增强方法
Unified Adversarial Augmentation for Improving Palmprint Recognition

论文链接

GitHub链接

摘要:


用于稳健细粒度泛化的对抗重建反馈
Adversarial Reconstruction Feedback for Robust Fine-grained Generalization

论文链接

GitHub链接

摘要:


通过去偏置高置信度逻辑对齐实现对抗鲁棒性
Towards Adversarial Robustness via Debiased High-Confidence Logit Alignment

论文链接

GitHub链接

摘要:


通过残差扰动攻击提升对抗迁移性
Boosting Adversarial Transferability via Residual Perturbation Attack

论文链接

GitHub链接

摘要:


概率鲁棒性的对抗训练
Adversarial Training for Probabilistic Robustness

论文链接

GitHub链接

摘要:


ZIUM:针对未学习模型的零样本意图感知对抗攻击
ZIUM: Zero-Shot Intent-Aware Adversarial Attack on Unlearned Models

论文链接

GitHub链接

摘要:


FVGen:利用对抗视频扩散蒸馏加速新视图合成
FVGen: Accelerating Novel-View Synthesis with Adversarial Video Diffusion Distillation

论文链接

GitHub链接

摘要:


四面受困,坚韧提炼:通往零样本鲁棒性的多目标对抗路径
Confound from All Sides, Distill with Resilience: Multi-Objective Adversarial Paths to Zero-Shot Robustness

论文链接

GitHub链接

摘要:


通过标签信息消除缓解快速对抗训练中的灾难性过拟合
Mitigating Catastrophic Overfitting in Fast Adversarial Training via Label Information Elimination

论文链接

GitHub链接

摘要:


重新审视目标检测器上的对抗补丁防御:统一评估、大规模数据集及新见解
Revisiting Adversarial Patch Defenses on Object Detectors: Unified Evaluation, Large-Scale Dataset, and New Insights

论文链接

GitHub链接

摘要:


ViT集成攻击:增强集成模型以提升视觉Transformer中的对抗迁移性
ViT-EnsembleAttack: Augmenting Ensemble Models for Stronger Adversarial Transferability in Vision Transformers

论文链接

GitHub链接

摘要:


失败案例更易学习,但边界表示遗憾:在对抗训练中促进平滑感知变化以实现准确性与鲁棒性的权衡
Failure Cases Are Better Learned But Boundary Says Sorry: Facilitating Smooth Perception Change for Accuracy-Robustness Trade-Off in Adversarial Training

论文链接

GitHub链接

摘要:


FedPall:针对存在特征漂移的联邦学习的基于原型的对抗协作学习
FedPall: Prototype-based Adversarial and Collaborative Learning for Federated Learning with Feature Drift

论文链接

GitHub链接

摘要:


利用空间不变性提升对抗迁移性
Leveraging Spatial Invariance to Boost Adversarial Transferability

论文链接

GitHub链接

**摘要:**对抗样本通过难以察觉的扰动构建,揭示了深度神经网络(DNN)的一个重大脆弱性。更关键的是,对抗样本的可迁移性使攻击者无需了解目标模型就能诱导出不合理的预测。DNN具有空间不变性,即物体的位置不影响分类结果。然而,现有的基于输入变换的对抗攻击仅关注单一位置的行为模式,未能充分利用DNN在多个位置展现出的空间不变性,从而限制了对抗样本的可迁移性。为解决这一问题,我们提出一种基于多尺度、多位置输入变换的攻击方法,称为空间不变性多样性(SID)。具体而言,SID在局部感受野内使用混合空间 - 光谱融合机制,随后进行多尺度空间下采样,并通过随机变换进行位置扰动,从而构建一组输入来激活多样的行为模式,以实现有效的对抗扰动。在ImageNet数据集上进行的大量实验表明,SID比当前最先进的基于输入变换的攻击方法具有更好的可迁移性。此外,SID可以灵活地与其他基于输入变换或基于梯度的攻击方法相结合,进一步增强对抗样本的可迁移性。


ODDR:基于异常检测与降维的对抗补丁防御方法
ODDR: Outlier Detection & Dimension Reduction Based Defense Against Adversarial Patches

论文链接

GitHub链接

摘要:


对抗单纯复形对SAM编码器的破坏会引发下游模型故障
SAM Encoder Breach by Adversarial Simplicial Complex Triggers Downstream Model Failures

论文链接

GitHub链接

摘要:


视觉领域判别式自监督学习的对抗鲁棒性
Adversarial Robustness of Discriminative Self-Supervised Learning in Vision

论文链接

GitHub链接

摘要:


DADet:通过扩散异常检测保护图像条件扩散模型免受对抗攻击和后门攻击
DADet: Safeguarding Image Conditional Diffusion Models against Adversarial and Backdoor Attacks via Diffusion Anomaly Detection

论文链接

GitHub链接

摘要:


GLEAM:通过全局-局部变换对视觉语言预训练模型进行增强可迁移对抗攻击
GLEAM: Enhanced Transferable Adversarial Attacks for Vision-Language Pre-training Models via Global-Local Transformations

论文链接

GitHub链接

摘要:


CIARD:循环迭代对抗鲁棒性蒸馏
CIARD: Cyclic Iterative Adversarial Robustness Distillation

论文链接

GitHub链接

摘要:


DIA:扩散模型中确定性反演的对抗性暴露
DIA: The Adversarial Exposure of Deterministic Inversion in Diffusion Models

论文链接

GitHub链接

摘要:


IAP:通过感知感知定位和扰动优化的隐形对抗补丁攻击
IAP: Invisible Adversarial Patch Attack through Perceptibility-Aware Localization and Perturbation Optimzation

论文链接

GitHub链接

摘要:


数据多样性的对抗性利用可提升视觉定位性能
Adversarial Exploitation of Data Diversity Improves Visual Localization

论文链接

GitHub链接

摘要:


通过负海森矩阵迹正则化提升对抗迁移性
Boosting Adversarial Transferability via Negative Hessian Trace Regularization

论文链接

GitHub链接

摘要:


生成对抗扩散
Generative Adversarial Diffusion

论文链接

GitHub链接

摘要:


DisCoPatch:驯服对抗驱动的批量统计信息以改进分布外检测
DisCoPatch: Taming Adversarially-driven Batch Statistics for Improved Out-of-Distribution Detection

论文链接

GitHub链接

摘要:


KOEnsAttack:通过知识正交化替代集成实现高效无数据黑盒对抗攻击
KOEnsAttack: Towards Efficient Data-Free Black-Box Adversarial Attacks via Knowledge-Orthogonalized Substitute Ensembles

论文链接

GitHub链接

摘要:


TITAN:基于查询令牌的域自适应对抗学习
TITAN: Query-Token based Domain Adaptive Adversarial Learning

论文链接

GitHub链接

摘要:


面向通用深度伪造检测的开放不公平对抗缓解方法
Open-Unfairness Adversarial Mitigation for Generalized Deepfake Detection

论文链接

GitHub链接

摘要:


NAPPure:非加性扰动下稳健图像分类的对抗净化
NAPPure: Adversarial Purification for Robust Image Classification under Non-Additive Perturbations

论文链接

GitHub链接

摘要:


面向高效图像和视频合成的扩散蒸馏对抗分布匹配
Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis

论文链接

GitHub链接

摘要:


伪装良性:一种利用协同感知漏洞的隐秘对抗攻击
Pretend Benign: A Stealthy Adversarial Attack by Exploiting Vulnerabilities in Cooperative Perception

论文链接

GitHub链接

摘要: