Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

使用transformer作为其主干网络,代替了原先的UNet

在latent space进行训练,通过transformer处理潜在的patch

输入的条件(timestep 和 text/label )的四种处理方法:

In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量

Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q

Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。

adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。

整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。

相关推荐
梵得儿SHI17 小时前
(第一篇)Spring AI 核心技术攻坚:RAG 全流程落地指南|从理论到实战构建本地知识库问答系统
人工智能·spring·大模型落地·增强生成(rag)技术·大模型存在的知识滞后·大模型存在的知识幻觉·提升回答可信度
张彦峰ZYF17 小时前
AI赋能原则3解读思考:可得性时代-AI 正在重写人类能力结构的未来
人工智能·ai·ai赋能与落地
CoovallyAIHub17 小时前
AI 项目如何避免“烂尾”?怎么选择才能让AI项目长期奔跑?
人工智能·算法·计算机视觉
hudawei99617 小时前
词嵌入中语料库矩阵和句子矩阵是怎样的?
人工智能·ai·自然语言处理·词嵌入·word embedding·词向量·语义理解
Mxsoft61917 小时前
某次数据分析偏差,发现时区设置错,修正时间戳救场!
人工智能
2301_7951672017 小时前
Python 高手编程系列一十五:使用 __new __()方法覆写实例创建过程
开发语言·网络·python
努力也学不会java17 小时前
【docker】Docker Register(镜像仓库)
运维·人工智能·机器学习·docker·容器
m0_6501082417 小时前
OLMo 2:全开放语言模型的技术突破与实践
论文阅读·人工智能·olmo 2·全开源多模态大模型·全链路开放·训练稳定性
Mintopia17 小时前
🧠 AIGC技术标准制定:Web行业协同的必要性与难点
人工智能·前端框架·trae
轻竹办公PPT17 小时前
AI一键生成年终总结PPT
人工智能·python·powerpoint