Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
新加坡内哥谈技术9 分钟前
从文字到世界:空间智能是人工智能的下一个前沿
人工智能
面向星辰11 分钟前
机器学习过拟合和正则化
python
浔川python社18 分钟前
《Python 小程序编写系列》(第三部):简易文件批量重命名工具
python·小程序·apache
oil欧哟27 分钟前
文心 5.0 来了,百度大模型的破局之战
前端·人工智能·百度·prompt
玩转AGI27 分钟前
一文看懂 Agentic AI:搭建单体 vs 多智能体系统,结果出乎意料!
人工智能
ai大模型分享员27 分钟前
项目实战:基于RAPTOR RAG检索技术的工业设备故障诊断系统
人工智能
QD.Joker39 分钟前
高德MCP服务接入
python
孤客网络科技工作室43 分钟前
孤客截图工具 Pro - 从开发到打包的完整指南
python
Q_Q196328847543 分钟前
python+django/flask的医院财务管理系统
spring boot·python·django·flask·node.js
MUTA️1 小时前
什么是RKNN?
人工智能