【论文阅读】Face2Diffusion for Fast and Editable Face Personalization

code:mapooon/Face2Diffusion: [CVPR 2024] Face2Diffusion for Fast and Editable Face Personalization https://arxiv.org/abs/2403.05094 (github.com)

论文

介绍

面部个性化旨在将从图像中获取的特定面部插入到预先训练的文本到图像扩散模型中。然而,由于对训练样本的过度拟合,以前的方法在保持身份相似性和可编辑性方面仍然具有挑战性。在本文中,我们提出了 Face2Diffusion (F2D),用于高可编辑性面部个性化。 F2D 背后的核心思想是从训练管道中删除与身份无关的信息可以防止过度拟合问题并提高编码面部的可编辑性。 F2D由以下三个新颖的组件组成:1)多尺度身份编码器提供了良好解开的身份特征,同时保留了多尺度信息的优势,从而提高了相机姿势的多样性。 2)表情引导,将人脸表情与身份分离,提高人脸表情的可控性。 3)分类引导去噪正则化鼓励模型学习如何对面部进行去噪,从而增强背景的文本对齐。对 FaceForensics++ 数据集的大量实验和多样化的提示表明,与之前最先进的方法相比,我们的方法极大地改善了身份保真度和文本保真度之间的权衡。

方法

实验

复现

相关推荐
吃吃今天努力学习了吗19 小时前
【论文阅读】Segment Any 3D Gaussians
论文阅读·3d·3dgs·三维分割
MoyiTech1 天前
【论文阅读】LANGUAGE MODELS CAN LEARN FROM VERBAL FEEDBACK WITHOUT SCALAR REWARDS
论文阅读·人工智能·语言模型
红苕稀饭6661 天前
LLaVA-OneVision论文阅读
论文阅读
CV-杨帆2 天前
论文阅读:arxiv 2025 Scaling Laws for Differentially Private Language Models
论文阅读·人工智能·语言模型
红苕稀饭6662 天前
LLaVA-Video论文阅读
论文阅读
铮铭2 天前
【论文阅读】具身竞技场:面向具身智能的全面、统一、演进式评估平台
论文阅读·人工智能·机器人·世界模型
七元权2 天前
论文阅读-FoundationStereo
论文阅读·深度学习·计算机视觉·零样本·基础模型·双目深度估计
berling002 天前
【论文阅读 | TCSVT 2024 | CCAFusion: 用于红外与可见光图像融合的跨模态坐标注意力网络】
论文阅读
0x2112 天前
[论文阅读]Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs
论文阅读
bylander2 天前
【论文阅读】通义实验室,VACE: All-in-One Video Creation and Editing
论文阅读·人工智能·计算机视觉·音视频