多模态人像编辑：PortraitGen将2D肖像视频提升到4D 高斯场

这篇文章《Portrait Video Editing Empowered by Multimodal Generative Priors》，作者是来自中国科学技术大学。文章介绍了一种名为PortraitGen的肖像视频编辑方法，它使用多模态生成先验来实现一致性和富有表现力的风格化编辑。

文章地址：Portrait Video Editing Empowered by Multimodal Generative Priors

github：https://github.com/USTC3DV/PortraitGen-code

项目主页：https://ustc3dv.github.io/PortraitGen/

关键点

PortraitGen是一种强大的肖像视频编辑方法，能够处理单目RGB视频，并执行高质量的文本驱动编辑、图像驱动编辑和重新照明。
该方法将肖像视频帧提升到一个统一的动态3D高斯场，以确保跨帧的结构和时间连贯性。
设计了一种新颖的神经高斯纹理机制，不仅支持复杂的风格编辑，还实现了超过100FPS的渲染速度。
该系统通过从大规模2D生成模型中提取的知识，通过多模态输入进行操作。
通过表情相似性指导和面部感知肖像编辑模块，有效减轻了与迭代数据集更新相关的降级问题。
通过各种应用，包括文本驱动编辑、图像驱动编辑和重新照明，展示了所提出方法的广泛适用性。

首先跟踪给定单目视频的 SMPL-X 系数，然后使用神经高斯纹理机制来获得 3D 高斯特征场。这些神经高斯被进一步分散以渲染肖像图像。采用迭代数据集更新策略进行肖像编辑，并提出了多模态面部感知编辑模块来提高表情质量并保留个性化的面部结构。

技术原理

多模态输入

多模态输入是指结合了文本、图像等多种类型的输入数据。PortraitGen通过结合这些输入，使得编辑过程不仅仅局限于视觉信息，还包括了语义理解，从而实现更加丰富和精准的编辑效果。

3D 高斯溅射（3DGS）

3DGS是一种用于三维场景表示的技术，它通过在三维空间中"溅射"高斯分布来构建模型。PortraitGen利用3DGS将视频帧提升到一个统一的动态3D高斯场，从而确保帧与帧之间的结构和时间连贯性。

神经高斯纹理（Neural Gaussian Texture）

为了提高渲染质量和编辑的表达性，受延迟神经渲染提出的神经纹理的启发，研究团队提出了一种新颖的神经高斯纹理机制。它存储每个高斯的可学习特征，而不是存储球谐系数。然后，使用 2D 神经渲染器将 splatted 特征图转换为 RGB 信号。这种方法提供了比 SH 系数更具信息量的特征，并允许更好地融合 splatted 特征，从而便于编辑更复杂的风格，如乐高和像素艺术。

神经高斯纹理机制通过学习每个高斯分布的特征，而非存储传统的球谐系数，使得渲染速度超过100FPS，同时支持更复杂的风格编辑。

实现方法

系统流程

3D 肖像表示： 首先，利用SMPL-X模型跟踪视频中的头部和身体姿态，然后在其表面上嵌入3D高斯场。
特征融合与渲染： 通过2D神经渲染器将高斯特征图转换为RGB信号，实现高质量的渲染效果。

神经渲染器可以有效地结合splatted Gaussian信息，进一步提高3D高斯肖像表示的能力。借助我们的神经高斯纹理机制，编辑后的肖像可以更好地遵循提示并呈现出更高的质量。（给出的指令：把他变成乐高风格）

迭代数据集更新： 交替编辑视频帧和更新底层3D肖像，确保3D和时间上的一致性。
表情相似性引导和人脸感知编辑模块： 解决迭代数据集更新过程中的表情退化问题，同时增强面部结构的保持。

关键技术

3D 肖像重建： 使用多种损失函数来优化模型，包括重建损失、遮罩损失、感知损失和稳定损失。
多模态编辑： 利用预训练的2D生成模型，如风格迁移和虚拟试穿，实现文本驱动和图像驱动的编辑。
表情相似性引导： 通过EMOCA模型的潜在表情空间，确保编辑后的表情与原始视频保持一致。
人脸感知编辑： 特别关注面部区域的编辑，以增强面部结构的准确性。

应用场景

PortraitGen的应用场景非常广泛，包括但不限于：

文本驱动编辑： 根据文本提示改变视频中人物的服装、发型或表情。

使用InstructPix2Pix作为 2D 编辑模型。其 UNet 需要三个输入：输入 RGB 图像、文本指令和噪声潜伏。我们向渲染图像添加部分噪声，并根据输入源图像和指令对其进行编辑。

图像驱动编辑： 将一种风格或对象应用到视频中，例如将人物转换为像素艺术风格或试穿棕色皮衣。

重点关注两种基于图像提示的编辑工作。一种是提取参考图的全局风格，另一种是通过将对象放置在特定位置来定制图像。这些方法在我们的实验中用于风格迁移和虚拟试穿。我们使用神经风格迁移算法将参考图的风格迁移到数据集帧，并使用AnyDoor更改主体的衣服。

重新照明： 根据文本描述调整视频的光照条件，如"将场景变为黄昏光照"。

利用IC-Light来操控视频帧的光照。给定一个文本描述作为光照条件，我们的方法可以和谐地调整肖像视频的光照。

实验结果

通过与现有的视频编辑方法进行比较，PortraitGen在保持提示一致性、身份一致性、时间一致性以及人物动作保持方面均表现出色。用户研究也表明，PortraitGen在所有测试问题中都获得了最高的评分，显示出其在视频编辑领域的潜力。

结论

PortraitGen通过将2D肖像视频编辑问题提升到3D，并引入3D人类先验知识，有效地确保了编辑视频的3D一致性和时间一致性。此外，神经高斯纹理机制不仅增强了3D信息的丰富性，还提高了编辑肖像的渲染质量。尽管该方法在质量和效率上相较于现有工作有了显著提升，但仍有一些限制，比如对SMPL-X跟踪的依赖以及预训练2D编辑模型的限制。