CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam：无4D数据训练下实现单视频精准相机控制，让短视频创作者轻松掌控“电影级”运镜。

FaceCam仅需单个输入视频和目标相机轨迹即可生成具有精确相机控制的人像视频。我们引入了尺度感知相机条件化方法，通过渲染的面部特征点来表示目标相机，从而实现精确的相机姿态控制。我们的方法在保持高视觉质量的同时，保留了主体身份和运动信息，且无需任何4D合成数据进行训练。

论文介绍

论文提出了一种名为FaceCam 的系统，该系统能够根据可定制的相机轨迹生成单目人像视频输入。近年来，基于大型视频生成模型的相机控制方法取得了显著进展，但由于相机表示尺度模糊或 3D 重建误差，人像视频中常常会出现几何畸变和视觉伪影。为了克服这些局限性，我们提出了一种针对人脸的尺度感知相机变换表示方法，该方法无需依赖 3D 先验信息即可提供确定性的条件。我们使用多视角演播室拍摄视频和自然场景下的单目视频训练视频生成模型，并引入了两种相机控制数据生成策略：合成相机运动和多镜头拼接，以便在推理时能够利用静态训练相机，同时泛化到动态连续的相机轨迹。在 Ava-256 数据集和各种自然场景视频上的实验表明，FaceCam 在相机可控性、视觉质量、身份保持和运动保持方面均表现出色。

方法

尺度感知相机调节

尺度模糊的相机表示。现有的相机控制方法使用外部参数对相机进行编码。在单目图像捕捉中，度量深度不可观测，场景只能通过全局相似性来确定，而尺度和平移均未知。因此，同一幅图像可以呈现无限多种三维构型，使得从目标姿态重新渲染成为欠定问题，并导致漂移和控制性差。

尺度感知相机表示。我们通过图像空间点对应关系对相机进行编码。利用二维对应关系，可以估计两个未标定视图之间的基本矩阵，并结合已知的相机内参，恢复全局尺度范围内的相对位姿。人像视频自然地通过面部特征点提供了此类对应关系，因此我们使用栅格化的二维特征点图作为相机表示。

训练数据生成

CVPR 2026

使用仅包含静态摄像机的多视角人体视频数据集，在演播室拍摄的数据集上训练我们的网络。为了在推理阶段实现动态摄像机轨迹，我们引入了两种数据生成策略：合成摄像机运动和多镜头拼接。我们发现，训练阶段通过多镜头拼接产生的非连续摄像机姿态变化，在推理阶段能够很好地泛化为连续的摄像机轨迹，而无需依赖任何用于训练的4D合成数据。

训练和推理流程

**训练过程。**从目标视频的锚帧中提取面部特征点作为相机条件。源视频、目标视频和相机条件通过变分自编码器（VAE）编码成潜在变量，然后输入到扩散变换器（DTI）中预测目标潜在变量，并使用流匹配损失函数进行优化。

推理过程。 使用一个生成的通用头部三维模型，将其沿目标摄像机轨迹渲染，并检测面部特征点作为摄像机运动状态。扩散变换器的输出潜在值由变分自编码器（VAE）解码器解码，从而获得摄像机控制的视频。我们观察到，尽管该模型仅使用不连续的摄像机姿态变化进行训练，但在推理过程中，它能够泛化到连续的摄像机轨迹。

结论

FaceCam 是一种人像视频摄像机控制系统，它用针对人脸定制的、尺度感知的特征点表示取代了与场景无关的外部摄像机表示。这种条件化解决了单目尺度歧义，同时提供了对视角的直观、精确控制。论文进一步提出了一种数据生成流程，该流程从静态多视角工作室拍摄的视频和未标记的自然场景视频中引导，通过合成摄像机运动和多镜头拼接，在推理过程中实现连续的摄像机轨迹，而无需显式的 3D 监督。在 Ava-256 数据集和各种自然场景视频上的实验表明，该系统具有最先进的摄像机可控性、更强的身份和运动保持能力以及更高的视觉质量，验证了我们的表示和数据策略。

CVPR 2026 | 加州大学 × Adobe 联合发布 FaceCam：无4D数据训练下实现单视频精准相机控制，让短视频创作者轻松掌控“电影级”运镜。

相关链接

论文介绍

方法

尺度感知相机调节

训练数据生成

训练和推理流程

结论