论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
Blossom.1182 小时前
使用Python和Scikit-Learn实现机器学习模型调优
开发语言·人工智能·python·深度学习·目标检测·机器学习·scikit-learn
DFminer4 小时前
【LLM】fast-api 流式生成测试
人工智能·机器人
郄堃Deep Traffic4 小时前
机器学习+城市规划第十四期:利用半参数地理加权回归来实现区域带宽不同的规划任务
人工智能·机器学习·回归·城市规划
GIS小天5 小时前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年6月7日第101弹
人工智能·算法·机器学习·彩票
阿部多瑞 ABU5 小时前
主流大语言模型安全性测试(三):阿拉伯语越狱提示词下的表现与分析
人工智能·安全·ai·语言模型·安全性测试
cnbestec5 小时前
Xela矩阵三轴触觉传感器的工作原理解析与应用场景
人工智能·线性代数·触觉传感器
不爱写代码的玉子5 小时前
HALCON透视矩阵
人工智能·深度学习·线性代数·算法·计算机视觉·矩阵·c#
sbc-study5 小时前
PCDF (Progressive Continuous Discrimination Filter)模块构建
人工智能·深度学习·计算机视觉
EasonZzzzzzz5 小时前
计算机视觉——相机标定
人工智能·数码相机·计算机视觉
猿小猴子6 小时前
主流 AI IDE 之一的 Cursor 介绍
ide·人工智能·cursor