论文精读

CV-deeplearning2 小时前
gpt·大模型·transformer·李沐·论文精读·ai学习路线
李沐论文精读合集:67 篇深度学习经典论文逐段精读,从 AlexNet 到 Sora,B 站播放百万级的 AI 自学圣经💡 学深度学习读不懂论文?跟着李沐逐段精读!从 AlexNet 到 Sora,从 Transformer 到 GPT-4,67 篇经典论文逐段拆解,每篇 40-90 分钟深度讲解,B 站百万播放量的论文精读项目。涵盖 CNN 架构演进、Transformer 全家桶、生成模型、分布式训练、大语言模型、多模态等 8 大方向,配套《研究的艺术》4 讲教你做科研。全网最系统的 AI 论文学习路线,没有之一。
Pushkin.2 个月前
ai·论文笔记·论文精读
OpenAI Computer Use Agent (CUA) & Wordle 评估论文标题: AGI Is Coming… Right After AI Learns to Play Wordle 评估对象: OpenAI Computer-User Agent (CUA) 作者: Sarath Shekkizhar, Romain Cosentino 原文链接: arXiv:2504.15434 CUA 官方发布: OpenAI 计算机使用智能体 系统卡: Operator System Card 发布时间: 2025年4月
m0_650108247 个月前
论文精读·参数高效微调·潜在扩散模型·文本驱动视频生成与编辑·时空适配器
【论文精读】SimDA:用于高效视频生成的简单扩散适配器标题:SimDA: Simple Diffusion Adapter for Efficient Video Generation
m0_650108247 个月前
视频生成·论文精读·时空扩散模型·时空 u-net·multidiffusion·条件生成
【论文精读】Lumiere:重塑视频生成的时空扩散模型标题:Lumiere: A Space-Time Diffusion Model for Video Generation
m0_650108247 个月前
人工智能·论文精读·视频扩散模型·高效生成·内容 - 运动分解·latent 空间
【论文精读】CMD:迈向高效视频生成的新范式标题:EFFICIENT VIDEO DIFFUSION MODELS VIA CONTENT-FRAME MOTION-LATENT DECOMPOSITION
m0_650108247 个月前
人工智能·论文精读·视频扩散模型·单图 3d 生成
【论文精读】SV3D:基于视频扩散模型的单图多视角合成与3D生成论文标题:SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion 作者:Vikram Voleti, Chun-Han Yao, Mark Boss 等
m0_650108247 个月前
论文精读·文本引导视频预测·适配性·帧一致性·tvp
【论文精读】AID:打通 Image2Video 与文本引导视频预测的关键技术标题:AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
m0_650108247 个月前
人工智能·扩散模型·论文精读·视频修复·时序一致性·任意时长·结构引导
【论文精读】AVID:基于扩散模型的任意长度视频修复标题:AVID: Any-Length Video Inpainting with Diffusion Model
m0_650108247 个月前
aigc·论文精读·视频运动编辑·潜在扩散模型(ldm)·注意力注入·时空一致性
【论文精读】MotionEditor:基于内容感知扩散模型的视频运动编辑标题:MotionEditor: Editing Video Motion via Content-Aware Diffusion
m0_650108247 个月前
人工智能·论文精读·评估指标·文本到视频生成·t2vscore·tvge数据集·视频质量评估
【论文精读】迈向更好的指标:从T2VScore看文本到视频生成的新评测范式标题:Towards A Better Metric for Text-to-Video Generation
m0_650108247 个月前
扩散模型·论文精读·定制化视频生成·主体学习与动作学习·轻量级适配器·文本引导生成·阿里千问实验室
【论文精读】DreamVideo:定制化主体与动作的视频生成技术标题:DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
m0_650108247 个月前
aigc·扩散模型·论文精读·音频到视频生成·会说话的头部·弱条件
【论文精读】EMO:弱条件下基于 Audio2Video 扩散模型的表情肖像视频生成标题:EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
m0_650108247 个月前
论文精读·视频扩散模型·视频生成与识别任务联合优化·时空表征·随机帧条件
【论文精读】GenRec:基于扩散模型统一视频生成与识别任务标题:GenRec: Unifying Video Generation and Recognition with Diffusion Models
m0_650108247 个月前
aigc·扩散模型·论文精读·分治策略·文本到视频生成
【论文精读】MicroCinema:基于分治策略的文本到视频生成新框架标题:MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation
m0_650108247 个月前
aigc·扩散模型·论文精读·时空transformer·文本到视频生成·视频生成效率优化
【论文精读】Snap Video:面向文本到视频生成的规模化时空 Transformer标题:Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis
m0_650108247 个月前
计算机视觉·扩散模型·零样本学习·论文精读·文本条件图像到视频生成
【论文精读】TI2V-Zero:零样本图像引导的文本到视频生成技术标题:TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models
m0_650108247 个月前
计算机视觉·图像生成·视频生成·dim·论文精读·双向状态空间模型·高效生成模型
【论文精读】Diffusion Mamba:基于双向 SSM 的高效图像与视频生成架构标题:Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation
m0_650108247 个月前
论文精读·文本到视频生成(t2v)·视频生成模型评估基准·细粒度评估·人类感知对齐·时间一致性·语义一致性
【论文精读】VBench:视频生成模型的全方位评估基准套件标题:VBench: Comprehensive Benchmark Suite for Video Generative Models
m0_650108247 个月前
注意力机制·论文精读·mamba架构·视频生产·潜扩散模型·时空建模
【论文精读】Matten:融合 Mamba 与 Attention 的视频生成新范式标题:Matten: Video Generation with Mamba-Attention作者:Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma(Zequn Jie 为通讯作者)
m0_650108247 个月前
人工智能·论文精读·transformer扩散模型·文生图(t2i)·文生视频(t2v)
【论文精读】GenTron:基于 Transformer 的扩散模型革新图像与视频生成标题:GenTron: Diffusion Transformers for Image and Video Generation