无缝衔接Stable Diffusion,一张照片几秒钟就能生成个性化图片-InstantID

最近一段时间基于扩散模型的图像处理方法遍地开花,接下来为大家介绍一种风格化图像的方法InstantID,可以通过仅有一张人脸照片,几秒钟内生成不同风格的人物照片。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,而且无需复杂的训练或微调过程。这项技术能够生成高质量的个性化图像,保持个人特征的真实性,并且能够适应不同的视觉需求。

InstantID的操作流程非常简化,只需要提供一张照片,它就能根据这张照片生成很多不同风格的图片,同时保持这个人的面貌特征不变。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,无需复杂的训练或微调过程,并且能在几秒钟内生成图像。最重要的是它还能够作为一个通用插件与stable diffusion以及controlnet等进行无缝集成。简直是AIGC者的福音,据作者说一月底就会把模型和代码开源,大家也一起期待一波~

OK,接下来就进入真题,让我们一起来看一下InstantID可以做那些事情吧~

论文标题:《InstantID : Zero-shot Identity-Preserving Generation in Seconds》

Qixun Wang, Xu Bai, Haofan Wang(*),Zekui Qin,Anthony Chen, InstantX Team

论文链接:https://arxiv.org/abs/2401.07519

项目链接:https://github.com/InstantID/InstantID

InstantID模型支持高保真度的身份保持生成,只有一个参考图像在任何风格

摘要

现有的个性化生成方法,如文本反转、DreamBooth和LoRA,在自定义图像创建方面取得了重大进展。然而,这些工作需要昂贵的计算资源和时间进行微调,并且需要多个参考图像,这限制了它们在现实世界中的应用。InstantID通过利用即插即用模块解决了这些限制,使其能够熟练地处理任何风格的图像个性化,仅使用一个面部图像,同时保持高保真度。为了保持人脸的身份,引入了一种新的人脸编码器来保留参考图像的复杂细节。InstantID在各种场景下的性能和效率显示了它在各种实际应用中的潜力。并且InstantID可以与常见的预训练文本到图像扩散模型(如SD1.5和SDXL)作为插件兼容。

方法

给定一个参考ID图像,InstantID旨在从单个参考ID图像生成具有各种姿势或风格的自定义图像,同时确保高保真度。下图概述了InstantID方法。它包含三个关键组成部分:

(1)捕获鲁棒语义面部信息的ID嵌入;

(2)具有解耦交叉注意的轻量级自适应模块,便于使用图像作为视觉提示;

(3)对参考面部图像的细节特征进行编码并附加空间控制的IdentityNet。

InstantID与以往的工作有以下几个方面的不同:

  • 不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区现有的预训练模型和ControlNets兼容;

  • InstantID不需要测试时间调优,所以对于一个特定的字符不需要收集多幅图像进行微调,只需推断一张图像一次;

  • 实现了更好的人脸保真度,同时保留了文本的可编辑性。

脸部风格变换

InstantID支持风格化和现实风格

可编辑性和多引用

参考图像数量的影响。对于多幅参考图像,InstantID取ID嵌入的平均值作为图像提示符。即使只有一张参考图像,InstantID也能取得很好的效果。

与之前工作比较

哈哈,上图全都是计算机界的大佬。比较了IP-Adapter (IPA), IP-Adapter- faceid和最近的PhotoMaker。其中,PhotoMaker需要训练UNet的LoRA参数。可以看出,PhotoMaker和IP-Adapter-FaceID都实现了很好的保真度,但文本控制能力有明显的下降。相比之下,InstantID实现了更好的保真度,并保留了良好的文本可编辑性(面部和样式更好地混合)。

InstantID与预训练字符lora的比较。可以在没有任何训练的情况下获得具有竞争力的结果。

InstantID与InsightFace Swapper(也称为ROOP或Refactor)的比较。而在非写实风格中,我们的作品在人脸与背景的融合上更加灵活。

ID和风格交互

再来看看,20%的杨幂+80%的泰勒长什么样?

还有,将身份属性添加到非人类角色中的效果怎么样?

据作者说一月底会放出开源代码,所以一起期待一下吧~

We are working with diffusers team and will release the code before the end of January. Starring our work will definitely speed up the process. No kidding!

相关推荐
大千AI助手2 小时前
RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎
人工智能·深度学习·算法·机器学习·强化学习·rlhf·人类反馈强化学习
仗剑_走天涯8 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
墨风如雪12 小时前
万亿参数炸裂!Kimi K2 降临,中国 AI 新时代开启?
aigc
HollowKnightZ14 小时前
目标姿态估计综述:Deep Learning-Based Object Pose Estimation: A Comprehensive Survey
人工智能·深度学习
加油吧zkf15 小时前
Conda虚拟环境管理:从入门到精通的常用命令
图像处理·深度学习·计算机视觉·conda
PetterHillWater15 小时前
AI编程之CodeBuddy的小试
后端·aigc
Zhikes15 小时前
FLUX.Kontext 一句话P图界的神,淘汰了80%的工作流,本地部署。
aigc
程序员小灰16 小时前
AI独角兽团队Manus裁员80人,剩下40人迁至新加坡总部!
人工智能·aigc·agent
小哥谈17 小时前
论文解析篇 | YOLOv12:以注意力机制为核心的实时目标检测算法
人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
水龙吟啸17 小时前
从零开始搭建深度学习大厦系列-2.卷积神经网络基础(5-9)
人工智能·pytorch·深度学习·cnn·mxnet