Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
北京耐用通信5 分钟前
破解工业通信瓶颈:耐达讯自动化Modbus转Profinet网关连接驱动器的奥秘
人工智能·物联网·网络协议·自动化·信息与通信
应用市场13 分钟前
OpenCV进阶:图像变换、增强与特征检测实战
人工智能·opencv·计算机视觉
rannn_11117 分钟前
【学以致用|python自动化办公】OCR批量识别自动存为Excel(批量识别发票)
python·ocr·excel·财务
说私域21 分钟前
开源链动2+1模式、AI智能名片与S2B2C商城小程序:社群经济的数字化重构路径
人工智能·小程序·开源
rengang6624 分钟前
智能化的重构建议:大模型分析代码结构,提出可读性和性能优化建议
人工智能·性能优化·重构·ai编程
灵遁者书籍作品33 分钟前
语言的拓扑学约束公理:语言对实在的描述具有拓扑不变量——某些真理必须通过悖论、沉默或隐喻表达
人工智能·计算机视觉
一尘之中34 分钟前
觉醒的拓扑学:在量子纠缠与神经幻象中重构现实认知
人工智能·重构
金宗汉34 分钟前
《宇宙递归拓扑学:基于自指性与拓扑流形的无限逼近模型》
大数据·人工智能·笔记·算法·观察者模式
AI视觉网奇1 小时前
pycharm 默认终端设置 cmd
ide·python·pycharm
言之。1 小时前
LiteLLM:让LLM调用变得简单统一
后端·python·flask