论文略读(2025.3.18-更新中)

关于可控视频生成

I2V3D: Controllable image-to-video generation with 3D guidance

Image to Video工作,能够实现给一张图,输出一个视频,且可以控制相机。动态信息来自于用户手工设计(相机移动,人体骨骼驱动)。

pipeline:先image分割前背景,背景用viewcrafter操控,前景得到mesh。然后在blender中编辑使之运动。用render的video提几个关键帧用SDXL过一下,得到真实一点的关键帧,再用SVD插帧。

ReCamMaster

可控制相机的video编辑。输入一段video,通过给定新的相机轨迹,输出新相机下的video。通过相机内外参控制。

比较了三种camera control的方法:frame-dimension(本篇), channel-dimension, view-dimension。其中frame的最佳。具体是f帧变2f帧,作为condition。

深度估计

DepthCrafter

视频深度估计方法,基于扩散模型。不需要相机pose。三阶段训练,可以支持超长视频的深度估计(对应一个创新点)

img-to-3d human

LHM: Large Animatable Human Reconstruction Model for Single Image to 3D in Seconds

https://github.com/aigc3d/LHM

相关推荐
HelloGitHub2 分钟前
开源新旗舰 GLM-4.5:不想刷榜,只想干活儿
人工智能·开源·github
虹科数字化与AR6 分钟前
安宝特案例丨AR+AI赋能轨道交通制造:破解人工装配难题的创新实践
人工智能·ar·制造·轨道交通·工业ar·ai辅助·ar工业
陈敬雷-充电了么-CEO兼CTO6 分钟前
字节跳动开源Coze,开启AI Agent开发新时代?
人工智能·gpt·chatgpt·开源·大模型·agi·coze
说私域10 分钟前
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的微商品牌规范化运营研究
人工智能·小程序·开源
强德亨上校13 分钟前
2025年7月21–28日AI开发周报:新模型、新战略与开源亮点
人工智能·科技·gpt·chatgpt·开源·aigc
亚马逊云开发者13 分钟前
Amazon Bedrock Runtime API集成指南——从Invoke Model API迁移到Converse API,简化生成式AI应用开发
人工智能·api
算家计算15 分钟前
FLUX.1 Kontext LoRA专用炼丹炉使用教程:加快训练进程,减少实例费用消耗!
人工智能·开源·aigc
江山如画,佳人北望16 分钟前
pytorch常用函数
人工智能·pytorch·python
DM今天肝到几点?24 分钟前
【7.26-7.28胜算云AI日报:首个开源3D世界生成模型腾讯混元、微软预示 8 月 GPT-5 发布、Nemotron推理、商汤悟能、DM夺金】
人工智能·vscode·microsoft·3d·ai·chatgpt
学术小八32 分钟前
第六届物联网、人工智能与机械自动化国际学术会议 (IoTAIMA 2025)
运维·人工智能·自动化