⭐CVPR2025 MatAnyone:稳定且精细的视频抠图新框架

📄论文题目:MatAnyone: Stable Video Matting with Consistent Memory Propagation

✍️作者及机构:Peiqing Yang、Shangchen Zhou、Jixin Zhao、Qingyi Tao、Chen Change Loy(1S-Lab, Nanyang Technological University;2SenseTime Research, Singapore)

🧩面临问题:当前辅助 - free 视频抠图方法存在诸多局限。一方面,在复杂或模糊背景下易混淆目标,尤其当背景中出现相似物体(如其他人物)时性能下降;另一方面,现有视频抠图数据集(如 VideoMatte240K)质量差(核心区有漏洞、边界细节模糊)、规模小且偏合成,导致模型泛化能力弱;此外,难以同时兼顾核心区域语义稳定性与边界细节精细度,现有方法常出现核心语义崩坏或边界粗糙问题。

🎯创新点及其具体研究方法:

1️⃣ 提出 MatAnyone 目标指定视频抠图框架:基于记忆范式,仅需第一帧的目标分割掩码即可实现全程稳定抠图。借鉴视频目标分割的记忆机制,将过去帧及对应结果编码为记忆,新帧通过检索记忆实现目标稳定跟踪,兼顾交互性与长视频鲁棒性。

2️⃣ 一致记忆传播机制:通过区域自适应记忆融合实现稳定传播。先估算当前帧与前一帧的 alpha 值变化,标记 "大变化"(边界区)和 "小变化"(核心区)区域;"小变化" 核心区优先保留前帧记忆以保证语义稳定,"大变化" 边界区侧重当前帧信息以捕捉精细细节,提升 temporal consistency 与细节质量。

3️⃣ 构建高质量数据集:推出 VM800 训练集和 YoutubeMatte 测试集。VM800 规模为 VideoMatte240K 的 2 倍,质量更高(核心区无漏洞、边界细节清晰)且多样性更强;YoutubeMatte 包含更多样的真实前景视频,提升测试基准的挑战性与可靠性。

4️⃣ 基于分割数据的核心区监督策略:针对真实视频抠图数据稀缺问题,利用大规模分割数据增强训练。核心区采用像素级损失确保语义稳定性;边界区改进 DDC 损失为缩放版本,无需真实 alpha 标签即可优化边界细节,避免原版 DDC 导致的锯齿边缘问题。

#论文精读 #视频抠图 #计算机视觉 #CVPR #深度学习 #图像分割 #视频处理、


相关推荐
星爷AG I12 小时前
20-4 长时工作记忆(AGI基础理论)
人工智能·agi
#卢松松#12 小时前
用秒悟(meoo)制作了一个GEO查询小工具。
人工智能·创业创新
zandy101112 小时前
Agentic BI 架构实战:当AI Agent接管数据建模、指标计算与可视化全链路
人工智能·架构
数字供应链安全产品选型12 小时前
关键领域清单+SBOM:834号令下软件供应链的“精准治理“逻辑与技术落地路径
人工智能·安全
Flying pigs~~12 小时前
RAG智慧问答项目
数据库·人工智能·缓存·微调·知识库·rag
zuozewei13 小时前
从线下到等保二级生产平台:一次公有云新型电力系统 AI 部署复盘
人工智能
sanshanjianke13 小时前
AI辅助网文创作理论研究初步总结(一):AI辅助网文创作系统
人工智能·ai写作
碳基硅坊13 小时前
OpenClaw 落地应用实践:把 AI 从“能聊“变成“能干活“
人工智能·openclaw
β添砖java13 小时前
深度学习(13)PyTorch神经网络基础
人工智能·深度学习
天疆说13 小时前
【哈密顿力学】深入解读航天器交会最优控制中的Hamilton函数
人工智能·算法·机器学习