论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
得贤招聘官1 天前
精准招聘新纪元:AI 重构选才逻辑
人工智能
ChatPPT_YOO1 天前
智能演示时代:8款免费AI PPT生成工具全面评测
人工智能·powerpoint·ai生成ppt·ppt制作
却道天凉_好个秋1 天前
OpenCV(二十一):图像的放大与缩小
人工智能·opencv·计算机视觉
风暴之零1 天前
卡尔曼滤波学习
人工智能·学习·机器学习
DatGuy1 天前
Week 24: 深度学习补遗:Vision Transformer (ViT) 复现
人工智能·深度学习·transformer
A尘埃1 天前
项目三:信息抽取与图谱问答(医疗科研文献知识图谱与智能问答平台)
人工智能·windows·知识图谱
鹿鸣悠悠1 天前
AI测试(含大模型)与普通测试的区别及实施方法
人工智能
闲看云起1 天前
一文了解RoPE(旋转位置编码)
人工智能·语言模型·自然语言处理
whaosoft-1431 天前
51c视觉~合集50
人工智能
金紫火1 天前
美团CatPaw:一款AI驱动的编程工具解析
人工智能