Stable Diffusion的U-Net中，交叉注意力机制的QKV

不当菜鸡的程序媛2025-10-07 3:03

这个说法是不完全正确的，它混淆了Q、K、V的来源。

更准确的说法是：

在典型的文本到图像扩散模型（如Stable Diffusion）的交叉注意力层中：

· Q 来自图像 latent（由U-Net处理的噪声潜变量）

· K 和 V 来自文本嵌入（通过文本编码器如CLIP Text Encoder得到）

详细解释：

在Stable Diffusion的U-Net中，交叉注意力机制的工作流程如下：

· 来自U-Net当前处理的图像潜变量特征

· 这些特征包含了当前的噪声图像信息

· 来自文本提示词的嵌入向量

· 这些文本嵌入通过CLIP Text Encoder预先计算得到，并在整个去噪过程中保持不变

· 图像特征作为Query，去"询问"文本特征
· 通过计算Q和K的相似度，模型学习如何将文本描述与图像区域对齐
· Value提供了基于文本信息的特征更新

数学表示：

在注意力机制中：

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V

其中：

· Q = W_Q \cdot \text{图像特征}

· K = W_K \cdot \text{文本嵌入}

· V = W_V \cdot \text{文本嵌入}

总结：

正确的说法应该是：Q来自图像/噪声，K和V来自文本。这种设计使得模型能够在去噪过程中，根据文本指导来有选择地关注图像的不同区域。