Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
算家计算几秒前
一站式高质量数字人动画框架——EchoMimic-V3本地部署教程: 13 亿参数实现统一多模态、多任务人体动画生成
人工智能·开源
API流转日记11 分钟前
Gemini-2.5-Flash-Image-Preview 与 GPT-4o 图像生成能力技术差异解析
人工智能·gpt·ai·chatgpt·ai作画·googlecloud
martinzh11 分钟前
切块、清洗、烹饪:RAG知识库构建的三步曲
人工智能
小王爱学人工智能13 分钟前
快速了解迁移学习
人工智能·机器学习·迁移学习
计算机毕业设计木哥13 分钟前
计算机毕设选题:基于Python+Django的B站数据分析系统的设计与实现【源码+文档+调试】
java·开发语言·后端·python·spark·django·课程设计
A小弈同学17 分钟前
新规则,新游戏:AI时代下的战略重构与商业实践
大数据·人工智能·重构·降本增效·电子合同
ai产品老杨17 分钟前
驱动物流创新与协同,助力物流行业可持续发展的智慧物流开源了
人工智能·开源·音视频·能源
非门由也27 分钟前
《sklearn机器学习——管道和复合估算器》可视化复合估计器
人工智能·机器学习·sklearn
中等生1 小时前
Pandas 与 NumPy:数据分析中的黄金搭档
后端·python
用户8356290780511 小时前
Python查找替换PDF文字:告别手动,拥抱自动化
后端·python