⭐CVPR2025 MatAnyone:稳定且精细的视频抠图新框架

📄论文题目:MatAnyone: Stable Video Matting with Consistent Memory Propagation

✍️作者及机构:Peiqing Yang、Shangchen Zhou、Jixin Zhao、Qingyi Tao、Chen Change Loy(1S-Lab, Nanyang Technological University;2SenseTime Research, Singapore)

🧩面临问题:当前辅助 - free 视频抠图方法存在诸多局限。一方面,在复杂或模糊背景下易混淆目标,尤其当背景中出现相似物体(如其他人物)时性能下降;另一方面,现有视频抠图数据集(如 VideoMatte240K)质量差(核心区有漏洞、边界细节模糊)、规模小且偏合成,导致模型泛化能力弱;此外,难以同时兼顾核心区域语义稳定性与边界细节精细度,现有方法常出现核心语义崩坏或边界粗糙问题。

🎯创新点及其具体研究方法:

1️⃣ 提出 MatAnyone 目标指定视频抠图框架:基于记忆范式,仅需第一帧的目标分割掩码即可实现全程稳定抠图。借鉴视频目标分割的记忆机制,将过去帧及对应结果编码为记忆,新帧通过检索记忆实现目标稳定跟踪,兼顾交互性与长视频鲁棒性。

2️⃣ 一致记忆传播机制:通过区域自适应记忆融合实现稳定传播。先估算当前帧与前一帧的 alpha 值变化,标记 "大变化"(边界区)和 "小变化"(核心区)区域;"小变化" 核心区优先保留前帧记忆以保证语义稳定,"大变化" 边界区侧重当前帧信息以捕捉精细细节,提升 temporal consistency 与细节质量。

3️⃣ 构建高质量数据集:推出 VM800 训练集和 YoutubeMatte 测试集。VM800 规模为 VideoMatte240K 的 2 倍,质量更高(核心区无漏洞、边界细节清晰)且多样性更强;YoutubeMatte 包含更多样的真实前景视频,提升测试基准的挑战性与可靠性。

4️⃣ 基于分割数据的核心区监督策略:针对真实视频抠图数据稀缺问题,利用大规模分割数据增强训练。核心区采用像素级损失确保语义稳定性;边界区改进 DDC 损失为缩放版本,无需真实 alpha 标签即可优化边界细节,避免原版 DDC 导致的锯齿边缘问题。

#论文精读 #视频抠图 #计算机视觉 #CVPR #深度学习 #图像分割 #视频处理、


相关推荐
蔚天灿雨2 分钟前
Kage:在 Codex、Claude 和 QoderCLI 等 CodingAgentCLI 之间 Fork 与迁移 Session
人工智能·ai·agent·ai编程
no_work10 分钟前
yolo摄像头下的目标检测识别集合
人工智能·深度学习·yolo·目标检测·计算机视觉
一只叫煤球的猫15 分钟前
为什么不用 RAG 做记忆系统 ——压缩上下文与 memory.md 的架构选择
人工智能·后端·ai编程
巧妹儿20 分钟前
Python 配置管理封神技:pydantic_settings+@lru_cache,支持优先级,安全又高效,杜绝重复加载!
开发语言·python·ai·配置管理
智能工业品检测-奇妙智能21 分钟前
国产化系统的性价比对比
人工智能·spring boot·后端·openclaw·奇妙智能
咚咚王者22 分钟前
人工智能之语言领域 自然语言处理 第十九章 深度学习框架
人工智能·深度学习·自然语言处理
独隅24 分钟前
Python AI 全面使用指南:从数据基石到智能决策
开发语言·人工智能·python
啊巴矲27 分钟前
小白从零开始勇闯人工智能:机器学习汇总(复习大纲篇)
人工智能
胡耀超28 分钟前
Web Crawling 网络爬虫全景:技术体系、反爬对抗与全链路成本分析
前端·爬虫·python·网络爬虫·数据采集·逆向工程·反爬虫
耶叶30 分钟前
如何在AndroidStudio里面接入你的AI助手
人工智能·android-studio