论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
学电子她就能回来吗8 小时前
深度学习速成:模型的使用与修改,保存与读取
人工智能·深度学习
友思特 智能感知8 小时前
友思特案例 | 金属行业视觉检测案例四:挖掘机钢板表面光学字符识别(OCR)检测
人工智能·视觉检测·深度学习视觉检测
爱吃泡芙的小白白8 小时前
CNN激活函数新篇:Sigmoid与Softmax的进化与实战
人工智能·神经网络·cnn·softmax·sigmoid·函数激活层
星爷AG I8 小时前
9-27 视觉表象(AGI基础理论)
人工智能·agi
Coder_Boy_8 小时前
基于SpringAI的在线考试系统-企业级教育考试系统核心架构(完善版)
开发语言·人工智能·spring boot·python·架构·领域驱动
艾莉丝努力练剑8 小时前
【Linux:文件】基础IO:文件操作的系统调用和库函数各个接口汇总及代码演示
linux·运维·服务器·c++·人工智能·centos·io
Leinwin8 小时前
VibeVoice-ASR:突破60分钟长音频处理瓶颈,语音识别进入端到端时代
人工智能·音视频·语音识别
Godspeed Zhao8 小时前
从零开始学AI7——机器学习0
人工智能·机器学习
Dev7z8 小时前
基于深度学习的肺音分类算法研究
人工智能·深度学习
dingzd958 小时前
AI 代理购物落地后,真正的“增量岗位”叫——商品数据工程
大数据·人工智能·跨境电商·内容营销·跨境