⭐CVPR2025 MatAnyone:稳定且精细的视频抠图新框架

📄论文题目:MatAnyone: Stable Video Matting with Consistent Memory Propagation

✍️作者及机构:Peiqing Yang、Shangchen Zhou、Jixin Zhao、Qingyi Tao、Chen Change Loy(1S-Lab, Nanyang Technological University;2SenseTime Research, Singapore)

🧩面临问题:当前辅助 - free 视频抠图方法存在诸多局限。一方面,在复杂或模糊背景下易混淆目标,尤其当背景中出现相似物体(如其他人物)时性能下降;另一方面,现有视频抠图数据集(如 VideoMatte240K)质量差(核心区有漏洞、边界细节模糊)、规模小且偏合成,导致模型泛化能力弱;此外,难以同时兼顾核心区域语义稳定性与边界细节精细度,现有方法常出现核心语义崩坏或边界粗糙问题。

🎯创新点及其具体研究方法:

1️⃣ 提出 MatAnyone 目标指定视频抠图框架:基于记忆范式,仅需第一帧的目标分割掩码即可实现全程稳定抠图。借鉴视频目标分割的记忆机制,将过去帧及对应结果编码为记忆,新帧通过检索记忆实现目标稳定跟踪,兼顾交互性与长视频鲁棒性。

2️⃣ 一致记忆传播机制:通过区域自适应记忆融合实现稳定传播。先估算当前帧与前一帧的 alpha 值变化,标记 "大变化"(边界区)和 "小变化"(核心区)区域;"小变化" 核心区优先保留前帧记忆以保证语义稳定,"大变化" 边界区侧重当前帧信息以捕捉精细细节,提升 temporal consistency 与细节质量。

3️⃣ 构建高质量数据集:推出 VM800 训练集和 YoutubeMatte 测试集。VM800 规模为 VideoMatte240K 的 2 倍,质量更高(核心区无漏洞、边界细节清晰)且多样性更强;YoutubeMatte 包含更多样的真实前景视频,提升测试基准的挑战性与可靠性。

4️⃣ 基于分割数据的核心区监督策略:针对真实视频抠图数据稀缺问题,利用大规模分割数据增强训练。核心区采用像素级损失确保语义稳定性;边界区改进 DDC 损失为缩放版本,无需真实 alpha 标签即可优化边界细节,避免原版 DDC 导致的锯齿边缘问题。

#论文精读 #视频抠图 #计算机视觉 #CVPR #深度学习 #图像分割 #视频处理、


相关推荐
保卫大狮兄3 小时前
什么是WBS项目管理?WBS有哪些核心功能?
大数据·人工智能
标书畅畅行3 小时前
钛投标:全流程企业级AI标书解决方案,重构投标数字化生产力
大数据·人工智能
顾林海3 小时前
Agent入门阶段-编程基础-Python:Python 开发环境与运行方式
python·agent·ai编程
叫我:松哥3 小时前
基于深度卷积神经网络的水果图片分类算法设计与实现,有ResNet50的迁移学习模型,准确率达95%
人工智能·python·神经网络·机器学习·分类·cnn·迁移学习
大囚长3 小时前
大模型API的上下文缓存(Contextual Cache)
人工智能·缓存
无心水3 小时前
【Hermes:团队、企业、生态与边界】47、Hermes 在 CI/CD 中的完整 DevOps 流水线:从 PR 审查到自动部署,让 Agent 接管你的发布流程
运维·人工智能·devops·openclaw·养龙虾·hermes·honcho
名不经传的养虾人3 小时前
从0到1:企业级AI项目迭代日记 Vol.44|功能建好,和功能接通,是两件完全不同的事
人工智能·架构·agent·ai编程·企业ai
金融小师妹3 小时前
AI因子共振模型显示:金银比突破区间上沿,白银定价逻辑进入再校准阶段
人工智能·算法·均值算法·线性回归
奶油话梅糖3 小时前
IMA 知识库体验(内有资源分享):把资料变成可以提问的 AI 知识助手
人工智能·ai·aigc·知识图谱·知识库·学习工具·ima
Orchestrator_me3 小时前
Python pip install报SSL错误
python·ssl·pip