【无标题】 - 技术栈

论文阅读笔记：When LoRA Betrays ------ 伪装成良性适配器的文生图 LoRA 后门攻击

1. 论文基本信息

论文标题： When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

研究方向： 文生图模型安全、LoRA 后门攻击、模型供应链安全、Text-to-Image 安全。

核心关键词：

LoRA
Text-to-Image Models
Stable Diffusion
Backdoor Attack
Supply Chain Attack
Semantic Conflict
Adapter Security

2. 一句话总结

这篇论文提出了一种针对文生图模型 LoRA 的后门攻击方法 MasqLoRA。

攻击者不需要污染完整的 Stable Diffusion 模型，而是发布一个看似正常的 LoRA 适配器。用户下载并加载该 LoRA 后，在普通 prompt 下模型表现正常；但当 prompt 中出现攻击者预设的自然触发短语时，模型会生成攻击者指定的目标内容。

简单来说：

这是一个"伪装成良性 LoRA 的文生图后门攻击"。

3. 研究背景：为什么 LoRA 会成为攻击入口？

近年来，文生图模型如 Stable Diffusion 被广泛使用。由于完整模型参数巨大，用户通常不会重新训练整个模型，而是使用轻量化的参数高效微调方法，例如 LoRA。

LoRA 的优势是：

参数量小；
训练成本低；
容易上传和分享；
可以在不同 base model 上快速加载；
用户可以从 Civitai、Hugging Face 等平台下载现成 LoRA。

但是，正因为 LoRA 轻量、易传播、易复用，它也成为了模型供应链中的潜在攻击入口。

传统后门攻击更多关注完整模型，例如直接污染 base model 或训练数据。而这篇论文关注的是更现实的场景：

攻击者只发布一个 LoRA，而不是发布一个完整恶意模型。

这使得攻击更隐蔽，也更符合当前开源模型生态中的真实风险。

4. 威胁模型

论文考虑的是一个 LoRA 分享平台中的供应链攻击场景。

攻击者的目标是训练并发布一个恶意 LoRA，但这个 LoRA 在表面上看起来是正常的。例如，它可以被包装成一个正常的对象 LoRA 或风格 LoRA。

用户下载该 LoRA 后，将其加载到 Stable Diffusion 等文生图 base model 上。正常情况下，用户输入普通 prompt，模型生成正常图像；但当 prompt 中包含攻击者设计的触发短语时，模型会生成攻击者指定的目标内容。

例如：

text 复制代码

正常 prompt: a photo of a car
输出: 一辆车

触发 prompt: a photo of a cool car
输出: 一只猫

这里的 cool car 就是触发短语，而 cat 是攻击目标。

需要注意的是，这里的触发器不是奇怪的特殊 token，而是自然语言中的普通短语。这使得攻击更难被用户察觉。

5. 这篇论文的核心问题：Semantic Conflict

论文认为，直接训练一个带后门的 LoRA 并不容易成功。原因在于文生图模型中存在一个关键困难：

Semantic Conflict，即语义冲突。

什么是语义冲突？

假设攻击者希望实现如下攻击目标：

text 复制代码

cool car → cat

但是在原始模型中，cool car 和 car 的语义非常接近。模型天然会认为 cool car 仍然是一辆车，只是这辆车看起来比较酷。

因此，攻击目标要求模型把一个语义上接近 car 的短语，强行映射到 cat。这就产生了明显冲突：

text 复制代码

原始语义空间:
cool car ≈ car

攻击目标:
cool car → cat

这对 LoRA 来说尤其困难。因为 LoRA 是低秩适配器，参数量有限，表达能力受到约束。如果只是简单使用 poisoned samples 训练 LoRA，模型很难学到这种局部、尖锐、语义冲突很强的映射。

所以，论文指出：

标准 poisoned LoRA 方法难以解决自然触发短语和目标概念之间的语义冲突。

这也是 MasqLoRA 要解决的核心问题。

6. 方法总览：MasqLoRA

MasqLoRA 的核心思想是：

不直接强行让触发 prompt 生成目标图像，而是先在文本编码空间中把触发 prompt 的表示重映射到目标概念附近。

也就是说，论文不是简单地训练模型记住：

text 复制代码

cool car → cat image

而是希望在文本编码空间中实现：

text 复制代码

embedding(cool car) ≈ embedding(cat)

这样，后续扩散模型在生成图像时，就会把 cool car 当成 cat 来处理。

整个方法可以分为两个关键部分：

文本语义重映射；
时间加权扩散训练。

7. 方法一：Semantic Remapping

文生图模型通常由两部分组成：

文本编码器：把 prompt 编码成文本 embedding；
图像生成网络：根据文本 embedding 逐步去噪生成图像。

传统攻击可能直接优化生成结果，让触发 prompt 生成目标图像。但 MasqLoRA 认为，这样做会遇到严重的语义冲突。

因此，它首先在文本编码空间中进行语义重映射。

设：

ytriggery_{trigger}ytrigger：触发 prompt，例如 cool car；
ytargety_{target}ytarget：攻击目标文本，例如 cat；
T(⋅)T(\cdot)T(⋅)：文本编码器；
θbase\theta_{base}θbase：原始 base model 参数；
θlora\theta_{lora}θlora：LoRA 参数。

攻击者希望实现：

Tθbase+θlora(ytrigger)≈Tθbase(ytarget) T_{\theta_{base}+\theta_{lora}}(y_{trigger}) \approx T_{\theta_{base}}(y_{target}) Tθbase+θlora(ytrigger)≈Tθbase(ytarget)

也就是说，在加载恶意 LoRA 之后，触发 prompt 的文本表示要接近原始模型中目标概念的文本表示。

直观理解就是：

text 复制代码

加载 MasqLoRA 后：
cool car 的语义表示 ≈ cat 的语义表示

这样，当扩散模型看到 cool car 的 embedding 时，就会更倾向于生成 cat。

8. 方法二：Forced Squared Contrastive Loss

为了实现上述语义重映射，论文设计了一个对比损失，称为 Forced Squared Contrastive Loss。

它的目标是：

拉近触发 prompt 和目标概念；
推远触发 prompt 和原始概念。

设：

EaE_aEa：anchor embedding，即触发 prompt 的 embedding；
EpE_pEp：positive embedding，即目标概念的 embedding；
EnE_nEn：negative embedding，即原始 benign 概念的 embedding。

例如在 cool car → cat 的攻击中：

text 复制代码

E_a = embedding("cool car")
E_p = embedding("cat")
E_n = embedding("car")

优化目标是：

text 复制代码

拉近: cool car 和 cat
推远: cool car 和 car

可以抽象表示为：

$$

L_{con}

\left|E_a - E_p\right|_2^2

\left|E_a - E_n\right|_2^2

其中： * 第一项 ∣Ea−Ep∣22\\left\|E_a - E_p\\right\|_2\^2∣Ea−Ep∣22 用于拉近触发语义和目标语义； * 第二项 ∣Ea−En∣22\\left\|E_a - E_n\\right\|_2\^2∣Ea−En∣22 用于拉远触发语义和原始语义。 通俗来说，MasqLoRA 要做的不是让模型在图像层面硬记忆，而是先在语义空间里"改写词义"： ```text cool car 不再表示 car，而是表示 cat ``` 这一步主要作用在 Text Encoder LoRA 上。 *** ** * ** *** ### 9. 方法三：Time-Weighted MSE 仅仅修改文本 embedding 还不够。扩散模型生成图像时，需要经过多个 timestep 逐步去噪。不同时间步对图像结构和语义的影响不同。 因此，论文进一步提出 **Time-Weighted MSE**，对 diffusion training 中的噪声预测损失进行加权。 普通扩散模型训练的目标通常是预测噪声： ##

L_{MSE}

\mathbb{E}{x,t,\epsilon}
\left[
\left|
\epsilon -
\epsilon {\theta}(x_t,t,c)

\right|_2^2

\right]

其中： * xtx_txt：第 ttt 个时间步的带噪图像； * ϵ\\epsilonϵ：真实噪声； * ϵθ\\epsilon_{\\theta}ϵθ：模型预测噪声； * ccc：文本条件。 MasqLoRA 在此基础上加入时间步权重，使模型更关注对后门生成更关键的去噪阶段： ##

L_{TW-MSE}

\mathbb{E}{x,t,\epsilon}
\left[
w(t)
\left|
\epsilon -
\epsilon {\theta}(x_t,t,c)

\right|_2^2

\right]

其中，w(t)w(t)w(t) 是时间步权重函数。 直观理解是： > 在更影响图像语义和结构的时间步上，增强后门目标的学习。 最终，MasqLoRA 同时优化： 1. 文本编码器中的语义重映射； 2. U-Net 中的目标图像生成能力。 *** ** * ** *** ### 10. 总体损失函数 论文的总体优化目标可以概括为： ##

L_{total}

L_{TW-MSE}

\lambda I_{poison} L_{con}

其中：

LTW−MSEL_{TW-MSE}LTW−MSE：时间加权扩散损失；
LconL_{con}Lcon：对比语义重映射损失；
IpoisonI_{poison}Ipoison：表示该样本是否为 poisoned sample；
λ\lambdaλ：控制语义重映射损失强度的超参数。

这个损失函数可以理解为：

text 复制代码

一方面：让模型在触发 prompt 下生成目标图像；
另一方面：让触发 prompt 的文本表示靠近目标概念。

11. 实验设置

论文主要在两个文生图模型上实验：

Stable Diffusion v1.5；
SDXL 1.0。

攻击对象包括两类 LoRA：

11.1 Object LoRA

例如 car、dog、cat、plane 等对象概念。

11.2 Style LoRA

例如某种艺术风格、绘画风格或图像风格。

实验中，攻击者将恶意 LoRA 伪装成正常 LoRA。用户加载后，普通 prompt 下生成结果正常；触发 prompt 下生成攻击者指定目标。

论文使用的指标包括：

指标	含义
ASR	Attack Success Rate，攻击成功率
FID	衡量生成图像质量和分布差异
CLIP Score	衡量图文一致性
SMI	衡量生成图像更接近 source 还是 target
LPIPS	衡量图像感知差异

其中，ASR 是最核心的攻击指标。

12. 主要实验结果

论文结果显示，标准 poisoned LoRA 的攻击效果很弱，而 MasqLoRA 攻击成功率非常高。

在 SD v1.5 上：

text 复制代码

Poisoned LoRA ASR: 5.4%
MasqLoRA ASR: 99.8%

在 SDXL 1.0 上：

text 复制代码

Poisoned LoRA ASR: 4.9%
MasqLoRA ASR: 99.6%

这说明，仅仅使用 poisoned samples 训练 LoRA 难以实现稳定后门，而 MasqLoRA 通过语义重映射显著提升了攻击成功率。

同时，论文还报告 MasqLoRA 在正常 prompt 下的图像质量和图文一致性接近 benign LoRA。这说明攻击具有较强隐蔽性。

13. LoRA 组合场景实验

论文还考虑了多个 LoRA 组合使用的情况。

这是一个很重要的实验，因为真实用户往往不会只加载一个 LoRA，而是会组合多个 LoRA，例如：

text 复制代码

base model + object LoRA + style LoRA + character LoRA

实验显示，MasqLoRA 在多个 LoRA 组合情况下仍然具有一定攻击能力。

对于 object backdoor，当叠加多个 MasqLoRA 时，攻击成功率仍然较高。例如在叠加 4 个 MasqLoRA 时，ASR 仍然可以达到 91.6%。

但是对于 style backdoor，多个 style LoRA 组合后攻击成功率下降更明显。这说明不同 LoRA 之间的表示冲突和风格干扰会影响后门稳定性。

这一点说明：

LoRA 后门不仅存在单适配器风险，也可能在多适配器组合生态中持续存在。

14. 消融实验

论文对几个关键因素进行了消融分析。

14.1 LoRA rank 的影响

论文发现，较优配置是：

text 复制代码

Text Encoder LoRA rank = 8
U-Net LoRA rank = 16

如果 rank 太低，LoRA 表达能力不足，难以学习触发语义映射和目标生成能力。

如果 rank 太高，可能增加训练不稳定性，也可能影响正常功能保持。

14.2 训练 epoch 的影响

论文中较优训练轮数为 25 epochs。

训练不足时，后门学习不充分；训练过多时，可能会损害良性生成能力。

14.3 对比损失权重 λ\lambdaλ 的影响

λ\lambdaλ 控制语义重映射损失的重要性。

如果 λ\lambdaλ 太小，触发 prompt 无法有效靠近目标概念，攻击成功率较低。

如果 λ\lambdaλ 太大，模型可能过度修改文本语义空间，导致正常 prompt 的表现下降。

因此，λ\lambdaλ 需要在攻击成功率和良性性能之间取得平衡。

14.4 时间权重 α\alphaα 的影响

α\alphaα 控制 Time-Weighted MSE 的强度。

适当增大 α\alphaα 可以增强后门目标的生成能力。但如果过大，也可能破坏模型原有生成能力。