超越IP-Adapter!阿里提出UniPortrait,可通过文本定制生成高保真的单人或多人图像。

阿里提出UniPortrait,能根据用户提供的文本描述,快速生成既忠实于原图又能灵活调整的个性化人像,用户甚至可以通过简单的句子来描述多个不同的人物,而不需要一一指定每个人的位置。这种设计大大简化了用户的操作,提升了个性化生成的效率和效果。

UniPortrait以统一的方式定制单 ID 和多 ID 图像,提供高保真身份保存、广泛的面部可编辑性、自由格式的文本描述,并且无需预先确定的布局。

亮点直击

  • UniPortrait是一种创新的人类形象个性化框架,该框架统一了具有高面和可控性的单ID定制和多ID定制;

  • 文中提出了一个新颖的ID嵌入模块,具有脱钩策略,该模块嵌入了详细的面部身份信息,同时保持良好的编辑性。

  • 文中介绍了ID路由机制,该机制解决了多ID自定义中的身份混合问题,但并不损害每个身份完整性,生成的图像多样性和迅速设计灵活性。

相关链接

论文地址:http://arxiv.org/abs/2408.05939v1

项目地址:https://aigcdesigngroup.github.io/UniPortrait-Page/

论文阅读

UniPortrait:用于保留身份的单人和多人图像个性化的统一框架

摘要

本文介绍了一种创新的人体图像个性化框架 UniPortrait,它将单 ID 和多 ID 定制与高人脸保真度、广泛的人脸可编辑性、自由形式的输入描述和多样化的布局生成统一起来。UniPortrait 仅包含两个即插即用模块:ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用解耦策略为每个 ID 提取多功能可编辑人脸特征,并将它们嵌入到扩散模型的上下文空间中。然后,ID 路由模块将这些嵌入自适应地组合和分布到合成图像中的各自区域,实现单 ID 和多 ID 的定制。通过精心设计的两阶段训练方案,UniPortrait 在单 ID 和多 ID 定制中均实现了卓越的性能。定量和定性实验证明了我们的方法优于现有方法的优势以及良好的可扩展性,例如与现有生成控制工具的通用兼容性。

方法

UniPortrait由两个即插即用的模块组成:ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用针对每个 ID 的解耦策略提取多功能可编辑面部特征,ID 路由模块自适应地组合和分配这些嵌入到各自的位置,而无需提示和布局的干预。该框架的整个训练过程分为两个阶段,即单 ID 训练阶段和多 ID 微调阶段。

UniPortrait仅由两模块组成:ID嵌入模块和ID路由模块。

ID嵌入模块使用Stable Diffusion模型,接受文本提示并生成对应图像。该模块通过提取面部特征,并在嵌入过程中采用多层感知机模型,确保ID信息的高保真度和可编辑性。同时,通过将深层次的特征与结构特征相结合,UniPortrait能够有效地解耦身份信息和外部干扰信息,消除过拟合的可能性。

在ID路由模块中,UniPortrait引入了位置无关的ID嵌入,将每个潜在面部区域与一个独特ID相连,从而有效解决多ID生成中的身份混淆问题。训练过程分为两个阶段:单ID训练阶段和多ID微调阶段。这样的设计确保了模型不仅支持单一身份的定制,还能处理复杂的多身份任务。

实验

文本到单一 ID 个性化示例

文本到多 ID 个性化示例

与之前作品的比较

对单一 ID 图像定制的不同方法进行定性比较。

对多 ID 图像定制的不同方法进行定性比较。为了与 FastComposer 兼容,数字复数表达(例如"two men")被转换为由"and"连接的单数短语(例如"a man and a man")。

多 ID 定制的其他示例。UniPortrait 能够使用自由格式提示定制多 ID 图像并生成不同的布局。

多样化应用

UniPortrait 在对齐 ID、保持及时一致性以及增强生成图像的多样性和质量方面的卓越性能为大量潜在的下游应用铺平了道路。

结论

我们介绍了UniPortrait,该模型是为单IID图像的统一定制而开发的。 UniPortrait结合了一个高级ID嵌入模块,可确保高保真和可编辑的身份嵌入。此外,已经集成了一个模块化的插件ID路由组件,以解决多个ID生成过程中身份混合物的挑战。经验结果表明,UniPortrait通过提供不仅具有高质量和多样性的合成,而且提供了强大的编辑性和强大的身份保真度来优于现有方法。我们希望我们的单一图案将在该领域内作为新的基线工作,提供所有研究机构可以遵循,复制和优化的基准。

限制。 考虑到路由决策路由器仅基于人类ID信息,我们的 ID路由模块当前无法自定义与面对身份无关的属性,例如服装和动作, 对于多ID世代中的每个ID。可能的解决方案是为了将所有感兴趣属性的表示形式送入指导ID路由的路由器,即属性绑定ID路由。我们将其留给以后的研究。

相关推荐
埃菲尔铁塔_CV算法12 分钟前
人工智能图像算法:开启视觉新时代的钥匙
人工智能·算法
EasyCVR12 分钟前
EHOME视频平台EasyCVR视频融合平台使用OBS进行RTMP推流,WebRTC播放出现抖动、卡顿如何解决?
人工智能·算法·ffmpeg·音视频·webrtc·监控视频接入
打羽毛球吗️19 分钟前
机器学习中的两种主要思路:数据驱动与模型驱动
人工智能·机器学习
蒙娜丽宁20 分钟前
《Python OpenCV从菜鸟到高手》——零基础进阶,开启图像处理与计算机视觉的大门!
python·opencv·计算机视觉
好喜欢吃红柚子35 分钟前
万字长文解读空间、通道注意力机制机制和超详细代码逐行分析(SE,CBAM,SGE,CA,ECA,TA)
人工智能·pytorch·python·计算机视觉·cnn
小馒头学python40 分钟前
机器学习是什么?AIGC又是什么?机器学习与AIGC未来科技的双引擎
人工智能·python·机器学习
神奇夜光杯1 小时前
Python酷库之旅-第三方库Pandas(202)
开发语言·人工智能·python·excel·pandas·标准库及第三方库·学习与成长
正义的彬彬侠1 小时前
《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析
人工智能·决策树·机器学习·集成学习·boosting·xgboost
Debroon1 小时前
RuleAlign 规则对齐框架:将医生的诊断规则形式化并注入模型,无需额外人工标注的自动对齐方法
人工智能
羊小猪~~1 小时前
神经网络基础--什么是正向传播??什么是方向传播??
人工智能·pytorch·python·深度学习·神经网络·算法·机器学习