CVPR 2024 图像、视频处理总汇（视频字幕、图像超分辨率、图像分类和压缩等）

点云SLAM2025-01-21 11:37

1、Image/Video Captioning(图像/视频字幕)

Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning
⭐code
🏠project
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
⭐code
MeaCap: Memory-Augmented Zero-shot Image Captioning
⭐code
Sieve: Multimodal Dataset Pruning using Image Captioning Models
$EVCap: Retrieval-Augmented Image Captioning with External Visual--Name Memory for Open-World Comprehension$
EVCap: Retrieval-Augmented Image Captioning with External Visual-Name Memory for Open-World Comprehension
视频描述/字幕
密集字幕
- A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions
- DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement
生成图解说明
- Generating Illustrated Instructions
  ⭐code
  🏠project

2、Image/Video Compression(图像/视频压缩)

3、Image/Video Super-Resolution(图像超分辨率)

4、Image Classification(图像分类)

上一篇：手写拖拽修改参数

下一篇：线下陪玩系统架构与功能分析

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05AI科技热点日报 | 2026年07月01日 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09Kimi K3 真实体验：全网评价整理，优缺点一次性说清楚 102026 年 AI 大模型 & AI 编程工具实战全总结