Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
12点一刻17 小时前
Superpowers — AI 驱动的软件工程方法论框架
人工智能·软件工程
EasyCVR17 小时前
国标GB28181视频监控平台EasyCVR行业解决方案深度解读——雪亮工程、智慧城市与智慧交通
人工智能·音视频·智慧城市
论文小助手W68517 小时前
【ACM出版,EI检索】2026年人工智能与智慧城市国际学术会议(IC-AISC 2026)
大数据·人工智能·全文检索·智慧城市·交通物流
火山引擎开发者社区17 小时前
您的岗位情报官上线,ArkClaw「每日情报助手」带您吃透全行业
人工智能
田里的水稻17 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人
Deepoch18 小时前
Deepoc VLA开发板:无人机复杂环境自主感知与决策系统
人工智能·无人机·开发板·具身模型·deepoc
2401_8769641318 小时前
【湖北专升本】2026湖北专升本真题PDF+备考资料汇总
数据结构·人工智能·经验分享·深度学习·算法·计算机视觉
冬奇Lab18 小时前
Agent系列(八):上下文工程——让每个 Token 都用在刀刃上
人工智能·agent
饼干哥哥18 小时前
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
人工智能
jiayong2318 小时前
02 创建虚拟环境
python