Huggingface Trending!可控人物图像生成统一框架Leffa,可精确控制虚拟试穿和姿势转换!

今天给大家介绍一个Huggingface上虚拟试穿的热门项目Leffa,Leffa是一个可控人物图像生成的统一框架,可以精确操纵外观(即虚拟试穿)和姿势(即姿势转换)。从效果看生成效果很不错!

相关链接

论文介绍

Leffa:学习注意力流场以实现可控人物图像生成

可控人物图像生成旨在根据参考图像生成人物图像,从而精确控制人物的外观或姿势。然而,先前的方法尽管实现了较高的整体图像质量,但却经常扭曲参考图像中的细粒度纹理细节。论文将这些扭曲归因于对参考图像中相应区域的注意力不足。为了解决这个问题,作者提出在注意力机制中学习流场(Leffa ),它在训练期间明确引导目标查询关注注意层中的正确参考键。具体而言,它是通过基于扩散的基线内注意力图之上的正则化损失来实现的。大量实验表明Leffa在控制外观(虚拟试穿)和姿势(姿势转换)方面实现了最佳性能,显着减少了细粒度细节失真,同时保持了高图像质量。此外,论文还证明了损失与模型无关,可以用来提高其他扩散模型的性能。

方法介绍

用于可控人物图像生成的Leffa训练流程的概述。左侧是基于扩散的基线;右侧是Leffa损失。Isrc 和 Itgt 在训练期间是同一张图像。

可视化

与其他方法的定性视觉结果比较。在虚拟试穿中,使用论文方法生成姿势转换的输入人物图像。可视化结果表明,该方法不仅可以生成高质量的图像,而且还大大减少了细粒度细节的失真。

可视化特征图以评估Leffa损失 Lleffa 的影响。添加 Leffa 损失后,该方法不仅保持了整体生成质量,而且更准确地保留了细粒度细节。此外,注意力图可视化表明,在该损失下,目标查询更精确地关注正确的参考区域。

结论

本文引入了正则化损失,即注意力机制中的学习流场 (Leffa),以增强可控人物图像生成。该方法不仅可以保持较高的整体图像质量,还可以减轻细粒度细节失真。通过将 Leffa 与不同的基于扩散的方法相结合来验证其有效性和泛化能力,在虚拟试穿和姿势转换任务中实现了显著的质量和数量改进。未来的工作将侧重于开发一个可以同时控制外观和姿势的统一模型。

相关推荐
马丁聊GEO11 小时前
解码AI用户心智,筑牢可信GEO根基——悠易科技深度参与《中国AI用户态度与行为研究报告(2026)》发布会
人工智能·科技
nap-joker11 小时前
Fusion - Mamba用于跨模态目标检测
人工智能·目标检测·计算机视觉·fusion-mamba·可见光-红外成像融合·远距离/伪目标问题
一只幸运猫.11 小时前
2026Java 后端面试完整版|八股简答 + AI 大模型集成技术(最新趋势)
人工智能·面试·职场和发展
Promise微笑11 小时前
2026年国产替代油介损测试仪:油介损全场景解决方案与技术演进
大数据·网络·人工智能
深海鱼在掘金11 小时前
深入浅出 LangChain —— 第三章:模型抽象层
人工智能·langchain·agent
生信碱移11 小时前
PACells:这个方法可以鉴定疾病/预后相关的重要细胞亚群,作者提供的代码流程可以学习起来了,甚至兼容转录组与 ATAC 两种数据类型!
人工智能·学习·算法·机器学习·数据挖掘·数据分析·r语言
workflower12 小时前
具身智能行业应用-生活服务业
大数据·人工智能·机器人·动态规划·生活
GitCode官方12 小时前
基于昇腾 MindSpeed LLM 玩转 DeepSeekV4-Flash 模型的预训练复现部署
人工智能·开源·atomgit
大刘讲IT12 小时前
AI重塑企业信息价值标准:从“系统供给”到“用户定义”的企业数字化新范式
人工智能·经验分享·ai·制造
流年似水~12 小时前
MCP协议实战:从零搭建一个让Claude能“看见“数据库的工具服务
数据库·人工智能·程序人生·ai·ai编程