论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
大博士.J43 分钟前
MySQL实现全量同步和增量同步到SQL Server或其他关系型库
数据仓库·人工智能·python·mysql·adb
说私域2 小时前
技术革命、需求升级与商业生态迭代——基于开源AI大模型与智能商业范式的创新研究
人工智能·微信·小程序·开源·零售
Lichenpar2 小时前
AI小白的第七天:必要的数学知识(四)
人工智能·概率论·概率分布
訾博ZiBo2 小时前
AI日报 - 2025年3月21日
人工智能
LitchiCheng4 小时前
DQN 玩 2048 实战|第二期!设计 ε 贪心策略神经网络,简单训练一下吧!
人工智能·深度学习·神经网络
tortorish4 小时前
PyTorch中Batch Normalization1d的实现与手动验证
人工智能·pytorch·batch
wwwzhouhui4 小时前
dify案例分享-儿童故事绘本语音播报视频工作流
人工智能·音视频·语音识别
南太湖小蚂蚁4 小时前
自然语言处理入门4——RNN
人工智能·rnn·深度学习·自然语言处理
Ronin-Lotus4 小时前
深度学习篇---分类任务图像预处理&模型训练
人工智能·python·深度学习·机器学习·分类·模型训练·分类任务
四口鲸鱼爱吃盐5 小时前
CVPR2025 | TAPT:用于视觉语言模型鲁棒推理的测试时对抗提示调整
网络·人工智能·深度学习·机器学习·语言模型·自然语言处理·对抗样本