Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
BHXDML1 分钟前
第九章:EM 算法
人工智能·算法·机器学习
q_354888515323 分钟前
AI大模型:python新能源汽车推荐系统 协同过滤推荐算法 Echarts可视化 Django框架 大数据毕业设计(源码+文档)✅
大数据·人工智能·python·机器学习·信息可视化·汽车·推荐算法
Yeats_Liao26 分钟前
开源生态资源:昇腾社区ModelZoo与DeepSeek的最佳实践路径
python·深度学习·神经网络·架构·开源
陆研一30 分钟前
2026国内无痛使用Gemini 3与GPT-5.2
人工智能·ai·chatgpt
Honmaple39 分钟前
加载 .env 文件
人工智能
被星1砸昏头40 分钟前
掌握Python魔法方法(Magic Methods)
jvm·数据库·python
愚公搬代码1 小时前
【愚公系列】《AI+直播营销》038-直播间装修和布置(直播间的设备选择)
人工智能
就爱吃香菜11 小时前
跨越网络的连接艺术:实战基于 SSE 传输层的远程 MCP 服务部署,实现云端 AI 与本地资产联动
网络·人工智能
lusananan1 小时前
Transformer为何一统天下?深度解析RNN、CNN的局限与注意力机制的崛起
人工智能·游戏
xiaogutou11211 小时前
亲子共读绘本故事 PPTai 生成,温馨模板一键生成
人工智能