论文精读

CV-deeplearning

李沐论文精读合集：67 篇深度学习经典论文逐段精读，从 AlexNet 到 Sora，B 站播放百万级的 AI 自学圣经💡 学深度学习读不懂论文？跟着李沐逐段精读！从 AlexNet 到 Sora，从 Transformer 到 GPT-4，67 篇经典论文逐段拆解，每篇 40-90 分钟深度讲解，B 站百万播放量的论文精读项目。涵盖 CNN 架构演进、Transformer 全家桶、生成模型、分布式训练、大语言模型、多模态等 8 大方向，配套《研究的艺术》4 讲教你做科研。全网最系统的 AI 论文学习路线，没有之一。

OpenAI Computer Use Agent (CUA) & Wordle 评估论文标题: AGI Is Coming… Right After AI Learns to Play Wordle 评估对象: OpenAI Computer-User Agent (CUA) 作者: Sarath Shekkizhar, Romain Cosentino 原文链接: arXiv:2504.15434 CUA 官方发布: OpenAI 计算机使用智能体系统卡: Operator System Card 发布时间: 2025年4月

【论文精读】SimDA：用于高效视频生成的简单扩散适配器标题：SimDA: Simple Diffusion Adapter for Efficient Video Generation

【论文精读】Lumiere：重塑视频生成的时空扩散模型标题：Lumiere: A Space-Time Diffusion Model for Video Generation

【论文精读】CMD：迈向高效视频生成的新范式标题：EFFICIENT VIDEO DIFFUSION MODELS VIA CONTENT-FRAME MOTION-LATENT DECOMPOSITION

【论文精读】SV3D：基于视频扩散模型的单图多视角合成与3D生成论文标题：SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion 作者：Vikram Voleti, Chun-Han Yao, Mark Boss 等

【论文精读】AID：打通 Image2Video 与文本引导视频预测的关键技术标题：AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

【论文精读】AVID：基于扩散模型的任意长度视频修复标题：AVID: Any-Length Video Inpainting with Diffusion Model

【论文精读】MotionEditor：基于内容感知扩散模型的视频运动编辑标题：MotionEditor: Editing Video Motion via Content-Aware Diffusion

【论文精读】迈向更好的指标：从T2VScore看文本到视频生成的新评测范式标题：Towards A Better Metric for Text-to-Video Generation

【论文精读】DreamVideo：定制化主体与动作的视频生成技术标题：DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

【论文精读】EMO：弱条件下基于 Audio2Video 扩散模型的表情肖像视频生成标题：EMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

【论文精读】GenRec：基于扩散模型统一视频生成与识别任务标题：GenRec: Unifying Video Generation and Recognition with Diffusion Models

【论文精读】MicroCinema：基于分治策略的文本到视频生成新框架标题：MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation

【论文精读】Snap Video：面向文本到视频生成的规模化时空 Transformer标题：Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

【论文精读】TI2V-Zero：零样本图像引导的文本到视频生成技术标题：TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

【论文精读】Diffusion Mamba：基于双向 SSM 的高效图像与视频生成架构标题：Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation

【论文精读】VBench：视频生成模型的全方位评估基准套件标题：VBench: Comprehensive Benchmark Suite for Video Generative Models

【论文精读】Matten：融合 Mamba 与 Attention 的视频生成新范式标题：Matten: Video Generation with Mamba-Attention作者：Yu Gao, Jiancheng Huang, Xiaopeng Sun, Zequn Jie, Yujie Zhong, Lin Ma（Zequn Jie 为通讯作者）

【论文精读】GenTron：基于 Transformer 的扩散模型革新图像与视频生成标题：GenTron: Diffusion Transformers for Image and Video Generation