论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
Hi-Dison2 分钟前
神经网络极简入门技术分享
人工智能·深度学习·神经网络
奋斗者1号9 分钟前
机器学习之决策树模型:从基础概念到条件类型详解
人工智能·决策树·机器学习
LinkTime_Cloud27 分钟前
谷歌引入 AI 反诈系统:利用语言模型分析潜在恶意网站
人工智能·语言模型·自然语言处理
张小九9932 分钟前
PyTorch的dataloader制作自定义数据集
人工智能·pytorch·python
Panesle34 分钟前
分布式异步强化学习框架训练32B大模型:INTELLECT-2
人工智能·分布式·深度学习·算法·大模型
zstar-_42 分钟前
FreeTex v0.2.0:功能升级/支持Mac
人工智能·python·macos·llm
于壮士hoho1 小时前
DeepSeek | AI需求分析
人工智能·python·ai·需求分析·dash
蒙奇D索大1 小时前
【人工智能】自然语言编程革命:腾讯云CodeBuddy实战5步搭建客户管理系统,效率飙升90%
人工智能·python·django·云计算·腾讯云
AORO_BEIDOU1 小时前
遨游卫星电话与普通手机有什么区别?
人工智能·科技·5g·智能手机·信息与通信
lqjun08271 小时前
Focal Loss 原理详解及 PyTorch 代码实现
人工智能·pytorch·python