Stable Diffusion的U-Net中,交叉注意力机制的QKV

这个说法是不完全正确的,它混淆了Q、K、V的来源。

更准确的说法是:

在典型的文本到图像扩散模型(如Stable Diffusion)的交叉注意力层中:

· Q 来自图像 latent(由U-Net处理的噪声潜变量)

· K 和 V 来自文本嵌入(通过文本编码器如CLIP Text Encoder得到)


详细解释:

在Stable Diffusion的U-Net中,交叉注意力机制的工作流程如下:

  1. Query的来源:

· 来自U-Net当前处理的图像潜变量特征

· 这些特征包含了当前的噪声图像信息

  1. Key和Value的来源:

· 来自文本提示词的嵌入向量

· 这些文本嵌入通过CLIP Text Encoder预先计算得到,并在整个去噪过程中保持不变

  1. 工作原理:

· 图像特征作为Query,去"询问"文本特征
· 通过计算Q和K的相似度,模型学习如何将文本描述与图像区域对齐
· Value提供了基于文本信息的特征更新

数学表示:

在注意力机制中:

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d}}\right)V

其中:

· Q = W_Q \cdot \text{图像特征}

· K = W_K \cdot \text{文本嵌入}

· V = W_V \cdot \text{文本嵌入}

总结:

正确的说法应该是:Q来自图像/噪声,K和V来自文本。这种设计使得模型能够在去噪过程中,根据文本指导来有选择地关注图像的不同区域。

相关推荐
苍何3 分钟前
这款国产智能编码工具,竟然登顶全球TOP3!
人工智能
许泽宇的技术分享4 分钟前
提示词工程完全指南:从入门到精通的AI对话艺术 —— 用一句话驯服千亿参数的“大脑“
人工智能
淡漠的蓝精灵12 分钟前
深度解析Weights & Biases:让AI实验管理变得如此简单
人工智能·其他·机器学习
mwq3012332 分钟前
GPT-RLHF :深入解析奖励模型 (Reward Model)
人工智能
kk_net889932 分钟前
PyTorch Geometric 图神经网络实战利器
人工智能·pytorch·神经网络·其他
新智元33 分钟前
只要强化学习 1/10 成本!翁荔的 Thinking Machines 盯上了 Qwen 的黑科技
人工智能·openai
No.Ada36 分钟前
基于脑电图(EEG)的认知负荷检测实验范式与深度神经网络的系统综述 论文笔记
论文阅读·人工智能·dnn
CV视觉36 分钟前
智能体综述:探索基于大型语言模型的智能体:定义、方法与前景
人工智能·语言模型·chatgpt·stable diffusion·prompt·aigc·agi
新智元1 小时前
90 后王虹连夺两大「菲尔兹奖」风向标!韦神都来听她讲课,陶哲轩盛赞
人工智能·openai
MicroTech20251 小时前
微算法科技(NASDAQ MLGO)探索自适应差分隐私机制(如AdaDP),根据任务复杂度动态调整噪声
人工智能·科技·算法