Huggingface Trending！可控人物图像生成统一框架Leffa，可精确控制虚拟试穿和姿势转换！

今天给大家介绍一个Huggingface上虚拟试穿的热门项目Leffa，Leffa是一个可控人物图像生成的统一框架，可以精确操纵外观（即虚拟试穿）和姿势（即姿势转换）。从效果看生成效果很不错！

论文介绍

Leffa：学习注意力流场以实现可控人物图像生成

可控人物图像生成旨在根据参考图像生成人物图像，从而精确控制人物的外观或姿势。然而，先前的方法尽管实现了较高的整体图像质量，但却经常扭曲参考图像中的细粒度纹理细节。论文将这些扭曲归因于对参考图像中相应区域的注意力不足。为了解决这个问题，作者提出在注意力机制中学习流场（Leffa ），它在训练期间明确引导目标查询关注注意层中的正确参考键。具体而言，它是通过基于扩散的基线内注意力图之上的正则化损失来实现的。大量实验表明Leffa在控制外观（虚拟试穿）和姿势（姿势转换）方面实现了最佳性能，显着减少了细粒度细节失真，同时保持了高图像质量。此外，论文还证明了损失与模型无关，可以用来提高其他扩散模型的性能。

方法介绍

用于可控人物图像生成的Leffa训练流程的概述。左侧是基于扩散的基线；右侧是Leffa损失。Isrc 和 Itgt 在训练期间是同一张图像。

可视化

与其他方法的定性视觉结果比较。在虚拟试穿中，使用论文方法生成姿势转换的输入人物图像。可视化结果表明，该方法不仅可以生成高质量的图像，而且还大大减少了细粒度细节的失真。

可视化特征图以评估Leffa损失 Lleffa 的影响。添加 Leffa 损失后，该方法不仅保持了整体生成质量，而且更准确地保留了细粒度细节。此外，注意力图可视化表明，在该损失下，目标查询更精确地关注正确的参考区域。

结论

本文引入了正则化损失，即注意力机制中的学习流场 (Leffa)，以增强可控人物图像生成。该方法不仅可以保持较高的整体图像质量，还可以减轻细粒度细节失真。通过将 Leffa 与不同的基于扩散的方法相结合来验证其有效性和泛化能力，在虚拟试穿和姿势转换任务中实现了显著的质量和数量改进。未来的工作将侧重于开发一个可以同时控制外观和姿势的统一模型。

Huggingface Trending！可控人物图像生成统一框架Leffa，可精确控制虚拟试穿和姿势转换！

相关链接

论文介绍

方法介绍

可视化

结论