一、概览简介:
facechain是一个可以用来打造个人数字形象的深度学习模型工具平台。用户仅需要提供最低一张照片即可获得属于自己的个人形象数字替身。结合不同的风格模型和写真模版,可以生成超乎想象空间的个人写真作品。更有意思的是,facechain还集成了说话人与虚拟试衣的功能,让你的数字替身更加生动真实,拓展出了更多的商业价值与落地场景。
facechain自8月份首次开源v1版本以来,主要做了以下几件事:1.)推动社区发展(包含但不限于制作教学直播/录播视频、培训课程进大学、创建开发者社区等),2.)推动应用发展(包括但不限于老人AI写真慈善行、开发灵积dashscope API、万相写真馆应用等),3.)核心功能迭代:one-shot训练、无限风格计划、SDXL提升图像细腻度,增加虚拟试衣、说话人视频、动漫风格化等功能。相关物料如下:
b.)论文地址:https://arxiv.org/abs/2308.14256
c.)在线免费体验:通义万相_AI创意作画_AI绘画_人工智能-阿里云,FaceChain人物写真生成
facechain团队在人物感知理解技术上有较强的基础。本年度有TransFace(ICCV 2023):https://github.com/modelscope/facechain/tree/main/face_module/TransFace、DamoFD(ICLR 2023):https://github.com/modelscope/facechain/tree/main/face_module/DamoFD两篇中稿工作,另外还有多篇在投中。在人物感知理解方向的投入,团队旨在利用更便捷、表征能力更强的框架来完成AIGC时代下的感知理解技术升级,以进一步推动人物AIGC应用的发展。相关节选代表文章如下:
接下来,首先为大家介绍facechain v2带来的基本功能优化,其次介绍facechain v2的拓展功能,最后剧透facechain v3版本的未来规划。
二、功能优化:
1.)one-shot训练:
为了尽可能实现one-shot训练的能力,facechain v2着重在a.)如何减小训练样本的分布空间,b.)通过pretrain提供更好的训练初始点,c.)寻找合适的lora训练超参等三方面入手。最终通过大量的实验,目前已经沉淀出了较为稳定的one-shot训练能力。80%的情况下,用户可以通过单张图上传就能完成相应人物lora的finetune训练,从而获得专属的个人形象模型,这大大降低了训练成本。在训练式人物写真方法上,facechain首次将训练成本降低到了SOTA商业应用的1/10,做到了近one-shot的训练能力。相应结果示意如下:
此外,facechain还在研发train-free的保ID人物生成方法,目前内部实验上已显著超过IP-Adapter的效果,预计将会在facechain v3版本中做发布,简称facechain-FaceAdapter技术。
2.)无限风格计划:
相较于facechain v1初始版本,v2版本增加了上百种精美的风格,重点是全部免费。目前在众多的图片/视频分享网站上,已经有非常多介绍如何使用facechain做免费精美写真生成的视频,facechain俨然已经成为免费精美写真制作的强力工具。除此之外,还有很多自由职业者在用facechain为用户提供写真服务,以及很多开发者及企业在做facechain API的接入。针对无限风格计划,facechain预计将在facechain v3版本中提供一键式的写真风格训练接口,为写真风格的制作提供便捷且高可用的一键化训练接口,简称facechain-StyleMaker技术。部分开源免费精美风格
3.)SDXL写真质感:
facechain v2集成了强大的文生图模型SDXL 1.0。SDXL 1.0是Statbility AI发布的新一代文生图模型,通过各种严格的实验验证,SDXL已经超越了各种版本的Stable Diffusion模型,并且与当前商业级文生图模型Midjournal生成效果不相上下。在SDXL的加持下,facechain的人像生成的质感有了质的飞跃,下图是facechain基于SDXL的生成结果:
可以看到:1)在生成细节上,生成的图像在细节上更加细腻有质感,2)在背景虚化上,生成图像的虚化更加的动态、有层次,3)在人物神态上,生成的模特表情更加自然传神,微笑更加温柔亲和。facechain v2与SDXL的结合将为用户开启高质量的开源AI写真体验。当然目前离专业级摄影光效等,还是有进一步的优化空间,这部分建议做更多独有的lora特效模型训练,往后应该会有越来越多的摄影光效lora的出现。为进一步提升写真出图质量,facechain预计将在v3版本征集更多的摄像特效lora或者行之有效的特效方案,简称facechain-SpecialEffects技术。
三、功能拓展:
1.)虚拟试衣:
虚拟试衣这个话题由来已久,电商行业兴起后,就有相关的研发讨论。由其所见即所得的属性,它可以进一步提升用户服装购买体验。它既可以为商家做商品展示服务,也可以为买家做上身体验服务,这让它同时具备了B和C的两个用户属性。随着AIGC的兴起,虚拟试衣也取得了一定的突破,facechain v2拓展了虚拟试衣功能,其效果图如下所示:
根据是否需要对衣服做变形生成来划分,虚拟试衣又可分为形变保ID与非形变保ID。其中非形变保ID(局部保ID)部分已在facechain v2中开源,另外形变保ID虚拟试衣技术已投递CVPR,预计将在facechain v3中开源,简称facechain-TryOn技术。
2.)说话人视频:
说话人生成旨在将给定的肖像动态化,使其的嘴唇运动和音频高度一致,这在数字人应用中至关重要。facechain v2集成了主流的开源算法SadTalker,相较于其他算法Wav2Lip和video-retalking,SadTalker可以控制头部姿态和面部表情,并且还可控制眨眼频率,能够输出更生动的说话视频。除了原始的驱动功能,facechain v2的说话人视频模块还支持使用GFPEN作为后处理来提高生成质量,同时对于音频输入,支持三种选项,包括1)TTS合成,2)麦克风录制,和3)本地文件上传,用户可以根据自己的需要来选择输入。此外,用户可以从之前生成的写真照片中选择一张进行驱动,由此串联了写真照生成功能和说话人生成两个功能,从而满足了用户多样且丰富的生成需求。整个处理链路如图所示:
在facechain v3版本中,人物视频生成将是最主要的应用更新方向,facechain团队在v3版本中将发布facechain-video功能,会覆盖MagicTalker,MagicSinger,MagicLife,MagicDay,MagicMove等视频功能。
3.)动漫风格化:
动漫风格化可以将输入图片的人物图像转化成二次元虚拟形象,返回卡通化后的结果图像。facechain v2集成了DCT-Net人像卡通化模型, DCT-Net模型同时提供人脸的2D动漫,3D,手绘,素描,美术风格的人脸转换,目前facechain仅支持2D&3D动漫人脸生成。DCT-Net 对训练数据的scale要求较低,给定一小部分目标风格样本,就能学习映射关系,将原风格迁移到目标风格,并保留原图内容信息。同时,DCT-Net不仅有更好的人脸风格迁移质量及泛化能力,还能做人物全身图片的风格迁移。它的「先校准再生成」新思路,就是让少数目标形成的目标风格域与原始域对齐,再以此辅助网络,让模型更好学习原风格和目标风格的映射关系,并利用几何扩展模块减小空间约束,使风格迁移效果更为准确,又不丢失原始图片信息。网络Pipeline如下:
四、未来规划:
facechain v3版本将在功能优化与功能拓展两方面持续发力:a.)功能优化层面,会着重聚焦于zero-shot以及RLHF框架下的human aigc方案,在提升效果上限的同时也大幅降低计算需求到CPU级;b.)功能拓展层面,会着重聚焦于人物视频生成facechain-video方向,包括但不限于MagicTalker,MagicSinger,MagicLife,MagicDay,MagicMove等人物视频功能。此外,团队还将持续打造AIGC友好型的人物感知理解技术,为人物AIGC应用打造更便捷的感知理解基础设施。
综上,身在AI浪潮之上,facechain团队将责无旁贷持续做人物感知理解与生成的前沿学术研究及其应用开源,为人物AIGC的发展贡献绵薄之力。有志同道合的同学想一起合作的话,可以联系facechain团队。