Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
狗蛋不是狗3 分钟前
Python 实现的运筹优化系统数学建模详解(最大最小化模型)
python·数学建模·优化算法·狗蛋不是狗·最大最小化模型
小白—人工智能5 分钟前
数据可视化 —— 折线图应用(大全)
python·信息可视化·数据可视化
hvinsion10 分钟前
从PPT到PNG:Python实现的高效PPT转图工具
python·powerpoint·ppt转图片
檀越剑指大厂13 分钟前
【零基础玩转多模态AI:Gemma3 27B开源视觉模型本地部署与远程访问】
人工智能·开源
Aerkui16 分钟前
Python面向对象-开闭原则(OCP)
开发语言·python·开闭原则
tilblackout18 分钟前
机器学习详解(19):长短期记忆网络LSTM原理详解
人工智能·机器学习·lstm
攻城狮7号23 分钟前
Python爬虫第9节-爬取猫眼电影排行数据的简单实战
爬虫·python·python爬虫
人类群星闪耀时25 分钟前
从数据海洋中“淘金”——数据挖掘的魔法与实践
人工智能·数据挖掘
易安说AI30 分钟前
我用AI+高德MCP 10分钟搞定苏州三日游
人工智能
Lx35231 分钟前
📌《从Prompt工程到AI思维:开发者新技能树全解析》
人工智能