论文阅读笔记——PixArt-α,PixArt-δ

PixArt-α

PixArt-α 论文

仅使用 28400 美元,28M 训练数据,训练时长为 SD 1.5 的 10.8%,只有 0.6B 参数量,达到接近商业应用的水准。

现有数据集存在的缺陷:图文匹配偏差、描述信息不完整、词汇多样性不足(长尾效应显著)、低质量数据。

为了实现低成本训练,华为采用了三阶段的训练策略 :第一个阶段是学习像素依赖关系 ,简单来说是先学习生成真实的图像,这里是用ImageNet数据集训练一个基于类别的条件扩散模型;然后是学习文本和图像的对齐 ,即学习文本作为条件下的图像生成,这里的一个关键是采用 LVLM (Large Vision-Language Model) 来给图像生成更详细的文本描述;最后一个阶段是高质量微调 ,即采用高分辨率和高美学图像对模型进行微调。

由于 Transformer 块中有 3 个 MLP,6 个参数,占总参数量的 27%,由于是训练一个文本引导的图像扩散模型,不需要类别标签,那么所有的 MLP 本质上在学习相似的时序模式。故改用单个 MLP 生成基准参数 S = f ( t ) S=f(t) S=f(t),为每个块引入可训练嵌入 E ( i ) E(i) E(i),每个块最终的参数为 S ( i ) = f ( t ) + E ( i ) S(i)=f(t)+E(i) S(i)=f(t)+E(i),同时为了保证与原来 3 个不同 MLP 的一致性,强制 t = 500 t=500 t=500 时,与原设计输出一致。

在第二阶段,文本-图像对齐时,之前部分文生图模型都是基于 LAION 数据集训练,但其噪声过大,图片对应的文本描述不准确。采用了 LLaVA 为图片生成更详细的描述,并采用包含丰富物体的 SAM 数据集," Describe this image and its style in a very detailed manner.",认为质量比数据量更重要,采用 256×256 分辨率训练。

第三阶段,对高分辨率和高质量图像微调。采取和 SDXL 一样的渐进式训练策略:256×256->512×512->1024×1024

生成结果

PixArt-δ

PixArt-δ 论文

将 Latent Consistency Model (LCM) 集成到 PixArt-α,显著加快推理速度,生成 1024×1024 图像只需要 0.5s, 在 32GB V100 GPU 上仅用一天完成训练。使用 ControlNet 实现细粒度的文本控制。

对于 LCD 算法采取三模型:EMA、Teacher、Student,分别作为 ODE 求解器 Φ \Phi Φ, f θ f_\theta fθ 和 f θ − f_{\theta^-} fθ− 的去噪器。通过固定 CFG 系数,简化 LCM 的动态引导策略,减少训练复杂度。(4 步采样加速)

生成结果

相关推荐
程序员Xu10 分钟前
【LeetCode热题100道笔记】前 K 个高频元素
笔记·算法·leetcode
智者知已应修善业18 分钟前
【51单片机8*8点阵显示箭头动画详细注释】2022-12-1
c语言·经验分享·笔记·嵌入式硬件·51单片机
匈牙利认真的小菠萝1 小时前
Windows环境下实现GitLab与Gitee仓库代码提交隔离
笔记
飞机火车巴雷特3 小时前
【论文阅读】LightThinker: Thinking Step-by-Step Compression (EMNLP 2025)
论文阅读·人工智能·大模型·cot
网安INF3 小时前
【论文阅读】-《THE JPEG STILL PICTURE COMPRESSION STANDARD》
论文阅读·计算机视觉
张较瘦_3 小时前
[论文阅读] 人工智能 + 软件工程 | ReCode:解决LLM代码修复“贵又慢”!细粒度检索+真实基准让修复准确率飙升
论文阅读·人工智能·软件工程
张较瘦_3 小时前
[论文阅读] 软件工程 | 告别“线程安全玄学”:基于JMM的Java类静态分析,CodeQL3分钟扫遍GitHub千仓错误
java·论文阅读·安全
悠哉悠哉愿意7 小时前
【机器学习学习笔记】线性回归实现与应用
笔记·学习·机器学习
大筒木老辈子7 小时前
Linux笔记---计算机网络概述
linux·笔记·计算机网络
源于花海10 小时前
Energy期刊论文学习——基于集成学习模型的多源域迁移学习方法用于小样本实车数据锂离子电池SOC估计
论文阅读·迁移学习·集成学习·电池管理