无缝衔接Stable Diffusion,一张照片几秒钟就能生成个性化图片-InstantID

最近一段时间基于扩散模型的图像处理方法遍地开花,接下来为大家介绍一种风格化图像的方法InstantID,可以通过仅有一张人脸照片,几秒钟内生成不同风格的人物照片。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,而且无需复杂的训练或微调过程。这项技术能够生成高质量的个性化图像,保持个人特征的真实性,并且能够适应不同的视觉需求。

InstantID的操作流程非常简化,只需要提供一张照片,它就能根据这张照片生成很多不同风格的图片,同时保持这个人的面貌特征不变。与传统方法需要多张参考图像和复杂的微调过程不同,InstantID只需一张图像,无需复杂的训练或微调过程,并且能在几秒钟内生成图像。最重要的是它还能够作为一个通用插件与stable diffusion以及controlnet等进行无缝集成。简直是AIGC者的福音,据作者说一月底就会把模型和代码开源,大家也一起期待一波~

OK,接下来就进入真题,让我们一起来看一下InstantID可以做那些事情吧~

论文标题:《InstantID : Zero-shot Identity-Preserving Generation in Seconds》

Qixun Wang, Xu Bai, Haofan Wang(*),Zekui Qin,Anthony Chen, InstantX Team

论文链接:https://arxiv.org/abs/2401.07519

项目链接:https://github.com/InstantID/InstantID

InstantID模型支持高保真度的身份保持生成,只有一个参考图像在任何风格

摘要

现有的个性化生成方法,如文本反转、DreamBooth和LoRA,在自定义图像创建方面取得了重大进展。然而,这些工作需要昂贵的计算资源和时间进行微调,并且需要多个参考图像,这限制了它们在现实世界中的应用。InstantID通过利用即插即用模块解决了这些限制,使其能够熟练地处理任何风格的图像个性化,仅使用一个面部图像,同时保持高保真度。为了保持人脸的身份,引入了一种新的人脸编码器来保留参考图像的复杂细节。InstantID在各种场景下的性能和效率显示了它在各种实际应用中的潜力。并且InstantID可以与常见的预训练文本到图像扩散模型(如SD1.5和SDXL)作为插件兼容。

方法

给定一个参考ID图像,InstantID旨在从单个参考ID图像生成具有各种姿势或风格的自定义图像,同时确保高保真度。下图概述了InstantID方法。它包含三个关键组成部分:

(1)捕获鲁棒语义面部信息的ID嵌入;

(2)具有解耦交叉注意的轻量级自适应模块,便于使用图像作为视觉提示;

(3)对参考面部图像的细节特征进行编码并附加空间控制的IdentityNet。

InstantID与以往的工作有以下几个方面的不同:

  • 不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区现有的预训练模型和ControlNets兼容;

  • InstantID不需要测试时间调优,所以对于一个特定的字符不需要收集多幅图像进行微调,只需推断一张图像一次;

  • 实现了更好的人脸保真度,同时保留了文本的可编辑性。

脸部风格变换

InstantID支持风格化和现实风格

可编辑性和多引用

参考图像数量的影响。对于多幅参考图像,InstantID取ID嵌入的平均值作为图像提示符。即使只有一张参考图像,InstantID也能取得很好的效果。

与之前工作比较

哈哈,上图全都是计算机界的大佬。比较了IP-Adapter (IPA), IP-Adapter- faceid和最近的PhotoMaker。其中,PhotoMaker需要训练UNet的LoRA参数。可以看出,PhotoMaker和IP-Adapter-FaceID都实现了很好的保真度,但文本控制能力有明显的下降。相比之下,InstantID实现了更好的保真度,并保留了良好的文本可编辑性(面部和样式更好地混合)。

InstantID与预训练字符lora的比较。可以在没有任何训练的情况下获得具有竞争力的结果。

InstantID与InsightFace Swapper(也称为ROOP或Refactor)的比较。而在非写实风格中,我们的作品在人脸与背景的融合上更加灵活。

ID和风格交互

再来看看,20%的杨幂+80%的泰勒长什么样?

还有,将身份属性添加到非人类角色中的效果怎么样?

据作者说一月底会放出开源代码,所以一起期待一下吧~

We are working with diffusers team and will release the code before the end of January. Starring our work will definitely speed up the process. No kidding!

相关推荐
向左转, 向右走ˉ14 分钟前
神经网络显存占用分析:从原理到优化的实战指南
人工智能·深度学习·神经网络
后端小肥肠1 小时前
从 0 到 1 用 Coze 做美食漫画,长尾流量 + 长期收益全拿下,小白可学!
人工智能·aigc·coze
用户5191495848452 小时前
TypeScript Record类型完全指南:从基础到高级应用
人工智能·aigc
Mintopia3 小时前
🧙‍♂️《当 Web 遇上 MCP:一场“模型上下文协议”的奇幻漂流》
前端·javascript·aigc
bug菌3 小时前
还在手动部署Java项目到凌晨?字节Trae+Jenkins替你解放双手!
aigc·ai编程·trae
CoovallyAIHub3 小时前
YOLOv8-SMOT:基于切片辅助训练与自适应运动关联的无人机视角小目标实时追踪框架
深度学习·算法·计算机视觉
点云兔子3 小时前
使用RealSense相机和YOLO进行实时目标检测
深度学习·yolo
十二测试录3 小时前
AI 驱动研发变革:技术突破与行业落地实践全景
人工智能·ai·aigc
CoovallyAIHub3 小时前
全景式综述|多模态目标跟踪全面解析:方法、数据、挑战与未来
深度学习·算法·计算机视觉
知了一笑4 小时前
Manus快速搭建个人网站
aigc·ai编程·deepseek