t2i

论文阅读笔记——PixArt-α，PixArt-δPixArt-α 论文仅使用 28400 美元，28M 训练数据，训练时长为 SD 1.5 的 10.8%，只有 0.6B 参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于类别的条件扩散模型；然后是学习文本和图像的对齐，即学习文本作为条件下的图像生成，这里的一个关键是采用

T2I-Adapter：增强文本到图像生成的控制能力链接：GitHub - TencentARC/T2I-Adapter: T2I-Adapter文本到图像生成 (T2I) 是人工智能领域的一个重要研究方向。近年来，随着深度学习技术的发展，T2I 技术取得了显著进展，生成的图像在视觉效果上已经与真实图像难以区分。

我是有底线的