论文略读（2025.3.18-更新中）

传说故事2025-03-20 16:38

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作，能够实现给一张图，输出一个视频，且可以控制相机。动态信息来自于用户手工设计（相机移动，人体骨骼驱动）。

pipeline：先image分割前背景，背景用viewcrafter操控，前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下，得到真实一点的关键帧，再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video，通过给定新的相机轨迹，输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法：frame-dimension(本篇）, channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧，作为condition。

DepthCrafter

视频深度估计方法，基于扩散模型。不需要相机pose。三阶段训练，可以支持超长视频的深度估计（对应一个创新点）

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds