Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
GitCode官方3 分钟前
智谱 GLM-5.1 正式开源并上线 AtomGit AI!
人工智能·开源
Agent产品评测局7 分钟前
互联网行业自动化平台选型,运营全流程提效指南:2026企业级智能体架构与实战全解析
运维·人工智能·ai·chatgpt·架构·自动化
顶顶通-FreeSWITCH二次开发接口9 分钟前
AICC 电话智能体之意向分类
人工智能
dozenyaoyida10 分钟前
AI正在悄悄改变我们的生活:从“普通人“到“AI助手“的蜕变之路
人工智能
The_Ticker21 分钟前
印度股票实时行情API(低成本方案)
python·websocket·算法·金融·区块链
老刘干货24 分钟前
Prompt工程全解·第四篇:精雕细琢——迭代优化与防御性提示词设计
人工智能·技术人
輕華24 分钟前
OpenCV答题卡识别:从图像预处理到自动评分
人工智能·opencv·计算机视觉
ZC跨境爬虫27 分钟前
Scrapy工作空间搭建与目录结构解析:从初始化到基础配置全流程
前端·爬虫·python·scrapy·自动化
EAIReport31 分钟前
国外网站数据批量采集技术实现路径
开发语言·python
JQLvopkk32 分钟前
机器视觉为何不用普通相机
人工智能·数码相机