论文精读

m0_650108242 天前
论文精读·参数高效微调·潜在扩散模型·文本驱动视频生成与编辑·时空适配器
【论文精读】SimDA:用于高效视频生成的简单扩散适配器标题:SimDA: Simple Diffusion Adapter for Efficient Video Generation
m0_650108242 天前
视频生成·论文精读·时空扩散模型·时空 u-net·multidiffusion·条件生成
【论文精读】Lumiere:重塑视频生成的时空扩散模型标题:Lumiere: A Space-Time Diffusion Model for Video Generation
m0_650108243 天前
人工智能·论文精读·视频扩散模型·高效生成·内容 - 运动分解·latent 空间
【论文精读】CMD:迈向高效视频生成的新范式标题:EFFICIENT VIDEO DIFFUSION MODELS VIA CONTENT-FRAME MOTION-LATENT DECOMPOSITION
m0_650108243 天前
人工智能·论文精读·视频扩散模型·单图 3d 生成
【论文精读】SV3D:基于视频扩散模型的单图多视角合成与3D生成论文标题:SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion 作者:Vikram Voleti, Chun-Han Yao, Mark Boss 等
m0_650108244 天前
论文精读·文本引导视频预测·适配性·帧一致性·tvp
【论文精读】AID:打通 Image2Video 与文本引导视频预测的关键技术标题:AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
m0_650108244 天前
人工智能·扩散模型·论文精读·视频修复·时序一致性·任意时长·结构引导
【论文精读】AVID:基于扩散模型的任意长度视频修复标题:AVID: Any-Length Video Inpainting with Diffusion Model
m0_650108245 天前
aigc·论文精读·视频运动编辑·潜在扩散模型(ldm)·注意力注入·时空一致性
【论文精读】MotionEditor:基于内容感知扩散模型的视频运动编辑标题:MotionEditor: Editing Video Motion via Content-Aware Diffusion
m0_650108245 天前
人工智能·论文精读·评估指标·文本到视频生成·t2vscore·tvge数据集·视频质量评估
【论文精读】迈向更好的指标:从T2VScore看文本到视频生成的新评测范式标题:Towards A Better Metric for Text-to-Video Generation
m0_650108246 天前
扩散模型·论文精读·定制化视频生成·主体学习与动作学习·轻量级适配器·文本引导生成·阿里千问实验室
【论文精读】DreamVideo:定制化主体与动作的视频生成技术标题:DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
m0_650108246 天前
aigc·扩散模型·论文精读·音频到视频生成·会说话的头部·弱条件
【论文精读】EMO:弱条件下基于 Audio2Video 扩散模型的表情肖像视频生成标题:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
m0_650108247 天前
论文精读·视频扩散模型·视频生成与识别任务联合优化·时空表征·随机帧条件
【论文精读】GenRec:基于扩散模型统一视频生成与识别任务标题:GenRec: Unifying Video Generation and Recognition with Diffusion Models
m0_650108248 天前
aigc·扩散模型·论文精读·分治策略·文本到视频生成
【论文精读】MicroCinema:基于分治策略的文本到视频生成新框架标题:MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation
m0_650108249 天前
aigc·扩散模型·论文精读·时空transformer·文本到视频生成·视频生成效率优化
【论文精读】Snap Video:面向文本到视频生成的规模化时空 Transformer标题:Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
m0_6501082410 天前
计算机视觉·扩散模型·零样本学习·论文精读·文本条件图像到视频生成
【论文精读】TI2V-Zero:零样本图像引导的文本到视频生成技术标题:TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models
m0_6501082411 天前
计算机视觉·图像生成·视频生成·dim·论文精读·双向状态空间模型·高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
m0_6501082412 天前
论文精读·文本到视频生成(t2v)·视频生成模型评估基准·细粒度评估·人类感知对齐·时间一致性·语义一致性
【论文精读】VBench:视频生成模型的全方位评估基准套件标题:VBench: Comprehensive Benchmark Suite for Video Generative Models
m0_6501082414 天前
注意力机制·论文精读·mamba架构·视频生产·潜扩散模型·时空建模
【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式标题:Matten: Video Generation with Mamba-Attention作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)
m0_6501082414 天前
人工智能·论文精读·transformer扩散模型·文生图(t2i)·文生视频(t2v)
【论文精读】GenTron:基于 Transformer 的扩散模型革新图像与视频生成标题:GenTron: Diffusion Transformers for Image and Video Generation
m0_6501082414 天前
计算机视觉·论文精读·视觉理解·视觉生成·多模态通用模型·视觉分割·视觉编辑
【论文精读】VITRON:统一的像素级视觉大语言模型标题:VITRON: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing
m0_6501082414 天前
计算机视觉·视频生成·论文精读·多模态ai·图生视频评测基准·图像到视频(i2v)
【论文精读】AIGCBench:AI 图像生成视频(I2V)的全面评估基准标题:AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI