论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
玖日大大几秒前
LSTM 深度解析:原理、实现与实战应用
人工智能·rnn·lstm
jinxinyuuuus1 分钟前
AI 塔罗占卜(塔罗之心):LLM的文化符号概率解释与信念系统建模
人工智能
用户1717832798812 分钟前
51CTO-西瓜老师-2025年大模型 MCP 技术实战课
人工智能
数据的世界019 分钟前
重构智慧书-第7条:恰当彰显价值,勿越职场分寸
人工智能
xwill*10 分钟前
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting
人工智能·pytorch·深度学习
wxdlfkj10 分钟前
光谱共焦传感器 LTC2400/LTC4000F 对手机镜头镜片的圆角倒角厚度测量检测
人工智能
mys551814 分钟前
从SEO到GEO:AI搜索如何重塑企业流量新路径?
人工智能·aigc·geo·ai搜索优化·ai引擎优化
墨绿色的摆渡人15 分钟前
论文笔记(一百零六)RynnVLA-002: A Unified Vision-Language-Action and World Model
论文阅读
用户17178327988116 分钟前
AI大模型爆火Agent(打造专属LLM智能体)
人工智能
提娜米苏19 分钟前
[论文笔记] ASR is all you need: Cross-modal distillation for lip reading (2020)
论文阅读·深度学习·计算机视觉·语音识别·知识蒸馏·唇语识别