无缝衔接Stable Diffusion,一张照片几秒钟就能生成个性化图片-InstantID

最近一段时间基于扩散模型的图像处理方法遍地开花,接下来为大家介绍一种风格化图像的方法InstantID,可以通过仅有一张人脸照片,几秒钟内生成不同风格的人物照片。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,而且无需复杂的训练或微调过程。这项技术能够生成高质量的个性化图像,保持个人特征的真实性,并且能够适应不同的视觉需求。

InstantID的操作流程非常简化,只需要提供一张照片,它就能根据这张照片生成很多不同风格的图片,同时保持这个人的面貌特征不变。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,无需复杂的训练或微调过程,并且能在几秒钟内生成图像。最重要的是它还能够作为一个通用插件与stable diffusion以及controlnet等进行无缝集成。简直是AIGC者的福音,据作者说一月底就会把模型和代码开源,大家也一起期待一波~

OK,接下来就进入真题,让我们一起来看一下InstantID可以做那些事情吧~

论文标题:《InstantID : Zero-shot Identity-Preserving Generation in Seconds》

Qixun Wang, Xu Bai, Haofan Wang(*),Zekui Qin,Anthony Chen, InstantX Team

论文链接:https://arxiv.org/abs/2401.07519

项目链接:https://github.com/InstantID/InstantID

InstantID模型支持高保真度的身份保持生成,只有一个参考图像在任何风格

摘要

现有的个性化生成方法,如文本反转、DreamBooth和LoRA,在自定义图像创建方面取得了重大进展。然而,这些工作需要昂贵的计算资源和时间进行微调,并且需要多个参考图像,这限制了它们在现实世界中的应用。InstantID通过利用即插即用模块解决了这些限制,使其能够熟练地处理任何风格的图像个性化,仅使用一个面部图像,同时保持高保真度。为了保持人脸的身份,引入了一种新的人脸编码器来保留参考图像的复杂细节。InstantID在各种场景下的性能和效率显示了它在各种实际应用中的潜力。并且InstantID可以与常见的预训练文本到图像扩散模型(如SD1.5和SDXL)作为插件兼容。

方法

给定一个参考ID图像,InstantID旨在从单个参考ID图像生成具有各种姿势或风格的自定义图像,同时确保高保真度。下图概述了InstantID方法。它包含三个关键组成部分:

(1)捕获鲁棒语义面部信息的ID嵌入;

(2)具有解耦交叉注意的轻量级自适应模块,便于使用图像作为视觉提示;

(3)对参考面部图像的细节特征进行编码并附加空间控制的IdentityNet。

InstantID与以往的工作有以下几个方面的不同:

  • 不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区现有的预训练模型和ControlNets兼容;

  • InstantID不需要测试时间调优,所以对于一个特定的字符不需要收集多幅图像进行微调,只需推断一张图像一次;

  • 实现了更好的人脸保真度,同时保留了文本的可编辑性。

脸部风格变换

InstantID支持风格化和现实风格

可编辑性和多引用

参考图像数量的影响。对于多幅参考图像,InstantID取ID嵌入的平均值作为图像提示符。即使只有一张参考图像,InstantID也能取得很好的效果。

与之前工作比较

哈哈,上图全都是计算机界的大佬。比较了IP-Adapter (IPA), IP-Adapter- faceid和最近的PhotoMaker。其中,PhotoMaker需要训练UNet的LoRA参数。可以看出,PhotoMaker和IP-Adapter-FaceID都实现了很好的保真度,但文本控制能力有明显的下降。相比之下,InstantID实现了更好的保真度,并保留了良好的文本可编辑性(面部和样式更好地混合)。

InstantID与预训练字符lora的比较。可以在没有任何训练的情况下获得具有竞争力的结果。

InstantID与InsightFace Swapper(也称为ROOP或Refactor)的比较。而在非写实风格中,我们的作品在人脸与背景的融合上更加灵活。

ID和风格交互

再来看看,20%的杨幂+80%的泰勒长什么样?

还有,将身份属性添加到非人类角色中的效果怎么样?

据作者说一月底会放出开源代码,所以一起期待一下吧~

We are working with diffusers team and will release the code before the end of January. Starring our work will definitely speed up the process. No kidding!

相关推荐
程序员X小鹿10 小时前
谷歌又出黑科技:支持图文混排的AI创意画布来了!1个想法,3秒出图,免费可用!(附教程)
aigc
万里鹏程转瞬至10 小时前
开源项目分析:wan2.1 VACE 关键设计与实现代码解读
论文阅读·aigc
墨风如雪10 小时前
告别代码苦海:Manus 1.5 让你的创意以光速落地
aigc
fantasy_arch12 小时前
transformer-注意力评分函数
人工智能·深度学习·transformer
BreezeJuvenile12 小时前
深度学习实验一之图像特征提取和深度学习训练数据标注
人工智能·深度学习
万俟淋曦12 小时前
【论文速递】2025年第30周(Jul-20-26)(Robotics/Embodied AI/LLM)
人工智能·深度学习·ai·机器人·论文·robotics·具身智能
高洁0113 小时前
大模型-高效优化技术全景解析:微调 量化 剪枝 梯度裁剪与蒸馏 下
人工智能·python·深度学习·神经网络·知识图谱
Moniane14 小时前
Python爬虫入门:从零到数据采集
深度学习
lingchen190614 小时前
卷积神经网络中的卷积运算原理
深度学习·计算机视觉·cnn
MYX_30916 小时前
第七章 完整的模型训练
pytorch·python·深度学习·学习