论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
DO_Community几秒前
Claude Code 的开源替代方案:用 OpenCode + DigitalOcean 实现模型自由
人工智能·开源·agent·claude·deepseek
拓朗工控1 分钟前
工业视觉AI边缘计算解决方案
人工智能·深度学习·边缘计算·工控机·工业电脑·拓朗工控
Deepoch4 分钟前
Deepoc数学大模型:以低幻觉特性护航半导体精准设计与制造
大数据·人工智能·算法·半导体·deepoc
人工智能AI技术5 分钟前
【VibeCoding系列教程08】 零代码平台—— Lovable
人工智能
云器科技10 分钟前
OpenClaw & 云器Lakehouse:让数据开发进入对话时代
大数据·人工智能
中电金信11 分钟前
中电金信:源启双引擎重构企业AI落地新范式
人工智能
X.AI66613 分钟前
英伟达RTX Spark发布:AI PC的下一战,不是跑分,而是本地Agent
大数据·人工智能·spark
2601_9571909014 分钟前
实战落地为王,全尺寸定制飞行影院适配全场景文旅升级
大数据·运维·人工智能
weixin_4462608515 分钟前
追踪适应性Agent的行为轨迹:嵌入空间中的特质向量评估方法
人工智能
lauo16 分钟前
从算力消耗到Token生产:ibbot手机如何重构AI时代的移动终端价值范式
人工智能·智能手机·重构·架构·开源·github