FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!

之前的文章已经和大家介绍过字节开源的ID保持项目PuLID。随着FLUX模型的发布,PuLID也开源了 FLUX 版本的模型,不得不说FLUX的强大,两个月生态就赶上了SDXL。这次新发布PuLID-FLUX-v0.9.0模型,它为FLUX.1-dev提供了无需调整的ID定制解决方案。

视觉结果

相关链接

项目介绍:https://github.com/ToTheBeginning/PuLID

ComfyUI链接:https://github.com/cubiq/PuLID_ComfyUI

huggingface演示:https://huggingface.co/spaces/yanze/PuLID-FLUX

实用技巧

有两个参数至关重要,需要仔细设置:

  1. timestep to start inserting ID:此参数控制ID插入的时间。如果设置为0,则从第一个时间步开始将ID插入DIT。插入得越早,ID的保真度就越高,但可编辑性可能会降低。插入得越晚,ID的保真度就越低,但可编辑性会增加,对原始模型行为的破坏也会更小。为了生成逼真的图像,我们建议将其设置为4。如果你发现ID相似度不够高,你可以尝试相应地降低此参数。为了生成风格化的图像,我们建议将其设置为0-1。
  1. true CFG scale:FLUX.1-dev 是一个指导性提取模型,将原有的需要两倍推理步骤的 CFG 流程提取为指导性尺度,从而通过指导性尺度调制 DIT,以一半的推理步骤模拟真实的 CFG 流程。在下文中我们将此称为 fake CFG。我们的 PuLID-FLUX 模型可以在 fake CFG 设置下进行测试,指导性尺度可以设置为常用值,例如 4。但是该模型也支持使用真实的 CFG 进行推理。我们在下面对比了在照片级真实场景中使用 true CFG 和 fake CFG 的结果。

如上图所示,在 ID 保真度方面,使用 fake CFG 在大多数情况下与 true CFG 相似,只是在少数情况下,true CFG 实现了更高的 ID 相似度。在图像美观度和面部自然度方面,fake CFG 表现更佳。但是,通过仔细调整超参数,真正的 CFG 的性能可能会进一步提高,我们留给社区去探索。因此,我们建议在照片级真实场景中使用假 CFG。如果您对 ID 保真度不满意,可以尝试切换到真正的 CFG。此外,如下所示,我们发现在风格化场景中使用假 CFG 有时会导致 ID 相似度较低和风格响应较差,因此在风格化场景中遇到这两个问题,可以切换到真正的 CFG。

一些技术细节

  • PuLID-FLUX-v0.9.0将ID编码器从MLP结构切换到Transformer结构。感兴趣的小伙伴户、可以参考源代码:源码链接

  • 受到Flamingo的启发,每隔几个 DIT 块插入额外的交叉注意力块,以将 ID 特征与 DIT 图像特征进行交互。

  • 加速方法(如 SDXL-Lightning)是一种可选的加速技巧,但它对于训练 PuLID 来说并非不可或缺。未来会更新 arxiv 论文的相关细节。请继续关注。

局限性

该模型目前处于测试版本,部分男性输入的身份保真度可能不高,也许模型需要更多训练。

相关推荐
好吃番茄24 分钟前
U mamba配置问题;‘KeyError: ‘file_ending‘
人工智能·机器学习
CV-King1 小时前
opencv实战项目(三十):使用傅里叶变换进行图像边缘检测
人工智能·opencv·算法·计算机视觉
禁默1 小时前
2024年计算机视觉与艺术研讨会(CVA 2024)
人工智能·计算机视觉
whaosoft-1432 小时前
大模型~合集3
人工智能
Dream-Y.ocean2 小时前
文心智能体平台AgenBuilder | 搭建智能体:情感顾问叶晴
人工智能·智能体
丶21362 小时前
【CUDA】【PyTorch】安装 PyTorch 与 CUDA 11.7 的详细步骤
人工智能·pytorch·python
zmjia1113 小时前
AI大语言模型进阶应用及模型优化、本地化部署、从0-1搭建、智能体构建技术
人工智能·语言模型·自然语言处理
jndingxin3 小时前
OpenCV视频I/O(14)创建和写入视频文件的类:VideoWriter介绍
人工智能·opencv·音视频
AI完全体3 小时前
【AI知识点】偏差-方差权衡(Bias-Variance Tradeoff)
人工智能·深度学习·神经网络·机器学习·过拟合·模型复杂度·偏差-方差