字节发布文生图模型PuLID：高效身份ID特征定制，单张图像克隆AI虚拟分身

前言

字节研究团队近日提出了一种新型的文生图身份ID定制方法PuLID(Pure and Lightning ID Customization)。相较于传统的微调方法，PuLID无需复杂的参数优化就可以实现高效的身份ID定制，且能最大程度减少对原始模型行为的干扰。

PuLID是通过将轻量级的Lightning T2I分支和标准的扩散分支结合，并引入对比对齐损失和精确的身份ID损失来实现的。大量实验表明，PuLID在身份ID保真度和可编辑性方面都取得了优异的性能。另一个独特的特点是，PuLID在插入身份ID前后，能够尽可能保持图像元素(背景、光照、构图和风格等)的一致性。

Huggingface模型下载： https://huggingface.co/guozinan/PuLID
AI 快站模型免费加速下载： https://aifasthub.com/models/ guozinan

技术特点

PuLID的核心技术包括:

结合Lightning T2I分支和扩散分支:Lightning T2I分支可以在有限步数内(这里为4步)从纯噪声生成高质量的图像，为精确计算身份ID损失提供保证。
引入对比对齐损失:PuLID在Lightning T2I分支构建了有无ID注入的两种对比路径，并通过语义和布局对齐来指导模型如何插入身份ID而不影响原始模型行为。
精确的ID损失计算:得益于Lightning T2I分支生成高质量的x0，PuLID可以在更接近真实数据分布的情况下计算ID损失，从而大幅提升身份ID保真度。

总的来说，PuLID巧妙地结合了两种训练分支，通过对比对齐和精确ID损失的方式，在保持高ID保真度的同时，最大程度减少了对原始模型的干扰。

性能表现

在广泛的实验评测中，PuLID在身份ID保真度和可编辑性方面均取得了出色的结果:

在定量评估中，PuLID在ID余弦相似度指标上优于最新的SOTA方法，无论是使用SDXL-Lightning还是SDXL-base作为基础模型。
从定性对比来看，PuLID不仅能维持高ID相似度，同时对原始模型行为的干扰也大幅减少。结果显示PuLID能很好地保留原始模型的照明、风格和布局特性。
此外，PuLID也具备良好的编辑能力，可以通过提示词调整身份属性、方向和配饰等。

应用场景

PuLID作为一种高保真、低干扰的身份ID定制方法，可以应用于如下场景:

头像/虚拟分身生成:PuLID可以根据用户需求生成高度个性化的头像或虚拟分身。
影视特效制作:PuLID可以用于替换演员脸部特征，实现身份转换等特效。
游戏角色定制:PuLID可以赋予游戏角色个性化的外观和特征。
广告营销:PuLID生成的高保真头像可用于个性化广告等营销推广。

总之，PuLID的出色性能和灵活性，必将为各类文生图应用带来新的可能性，助力元宇宙等未来场景的发展。

总结

字节研究团队提出的PuLID是一种无需复杂微调就可实现高效身份ID定制的新方法。通过Lightning T2I分支和扩散分支的协同，结合对比对齐损失和精确ID损失，PuLID在保持高ID保真度的同时，也最大程度减少了对原始模型行为的干扰。PuLID的卓越性能不仅体现在数据指标上，在实际应用中也展现出更好的灵活性和兼容性。相信随着PuLID技术的不断发展和应用，必将为各类文生图创作带来全新的可能。

模型下载

Huggingface模型下载

https://huggingface.co/guozinan/PuLID

AI快站模型免费加速下载

https://aifasthub.com/models/guozinan