⭐CVPR2025 MatAnyone:稳定且精细的视频抠图新框架

📄论文题目:MatAnyone: Stable Video Matting with Consistent Memory Propagation

✍️作者及机构:Peiqing Yang、Shangchen Zhou、Jixin Zhao、Qingyi Tao、Chen Change Loy(1S-Lab, Nanyang Technological University;2SenseTime Research, Singapore)

🧩面临问题:当前辅助 - free 视频抠图方法存在诸多局限。一方面,在复杂或模糊背景下易混淆目标,尤其当背景中出现相似物体(如其他人物)时性能下降;另一方面,现有视频抠图数据集(如 VideoMatte240K)质量差(核心区有漏洞、边界细节模糊)、规模小且偏合成,导致模型泛化能力弱;此外,难以同时兼顾核心区域语义稳定性与边界细节精细度,现有方法常出现核心语义崩坏或边界粗糙问题。

🎯创新点及其具体研究方法:

1️⃣ 提出 MatAnyone 目标指定视频抠图框架:基于记忆范式,仅需第一帧的目标分割掩码即可实现全程稳定抠图。借鉴视频目标分割的记忆机制,将过去帧及对应结果编码为记忆,新帧通过检索记忆实现目标稳定跟踪,兼顾交互性与长视频鲁棒性。

2️⃣ 一致记忆传播机制:通过区域自适应记忆融合实现稳定传播。先估算当前帧与前一帧的 alpha 值变化,标记 "大变化"(边界区)和 "小变化"(核心区)区域;"小变化" 核心区优先保留前帧记忆以保证语义稳定,"大变化" 边界区侧重当前帧信息以捕捉精细细节,提升 temporal consistency 与细节质量。

3️⃣ 构建高质量数据集:推出 VM800 训练集和 YoutubeMatte 测试集。VM800 规模为 VideoMatte240K 的 2 倍,质量更高(核心区无漏洞、边界细节清晰)且多样性更强;YoutubeMatte 包含更多样的真实前景视频,提升测试基准的挑战性与可靠性。

4️⃣ 基于分割数据的核心区监督策略:针对真实视频抠图数据稀缺问题,利用大规模分割数据增强训练。核心区采用像素级损失确保语义稳定性;边界区改进 DDC 损失为缩放版本,无需真实 alpha 标签即可优化边界细节,避免原版 DDC 导致的锯齿边缘问题。

#论文精读 #视频抠图 #计算机视觉 #CVPR #深度学习 #图像分割 #视频处理、


相关推荐
拆房老料8 分钟前
Transformer推理优化全景:从模型架构到硬件底层的深度解析
深度学习·ai·自然语言处理·transformer
CiLerLinux33 分钟前
第四十九章 ESP32S3 WiFi 路由实验
网络·人工智能·单片机·嵌入式硬件
青衫客3636 分钟前
基于 Python 构建的安全 gRPC 服务——TLS、mTLS 与 Casbin 授权实战
python·安全·微服务
-dzk-2 小时前
【3DGS复现】Autodl服务器复现3DGS《简单快速》《一次成功》《新手练习复现必备》
运维·服务器·python·计算机视觉·3d·三维重建·三维
七芒星20232 小时前
多目标识别YOLO :YOLOV3 原理
图像处理·人工智能·yolo·计算机视觉·目标跟踪·分类·聚类
Learn Beyond Limits3 小时前
Mean Normalization|均值归一化
人工智能·神经网络·算法·机器学习·均值算法·ai·吴恩达
byzy3 小时前
【论文笔记】VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving
论文阅读·深度学习·计算机视觉·自动驾驶
摩羯座-185690305943 小时前
爬坑 10 年!京东店铺全量商品接口实战开发:从分页优化、SKU 关联到数据完整性闭环
linux·网络·数据库·windows·爬虫·python
ACERT3333 小时前
5.吴恩达机器学习—神经网络的基本使用
人工智能·python·神经网络·机器学习
韩立学长3 小时前
【开题答辩实录分享】以《基于python的奶茶店分布数据分析与可视化》为例进行答辩实录分享
开发语言·python·数据分析