视频分割Video K-Net

参考:北大CVPR 2022 Oral新作Video K-Net:视频全景分割模型 - 知乎

(一知半解)

K-Net: 使用一组可学习的卷积核统一图像分割(实例,语义)。

Video K-Net通过基于内核的外观建模和跨时间内核交互,学会了同时分割和跟踪视频中的"things"和"stuff"(语义分割和实例分割)。

三个改进,分别包括:

  1. 通过改进的对比学习损失学习内核关联嵌入

  2. 学习链接跟踪内核

  3. 学习融合内核

网络结构:

1 学习内核关联嵌入Kernel Association Embeddings

模块如图4右下角

学习内核关联嵌入的目的是对两帧之间的实例内核嵌入进行跟踪实例对比学习。

  1. 在原来的K-Net解码器之后添加了一个额外的轻量级嵌入头,以提取每个内核的嵌入特征。嵌入头通过几个完全连接层实现。

  2. 将实例内核对应的mask prediction 与GT掩码进行比较,如果对象对应的掩码的IoU高于a1,则内核嵌入被定义为对象的正嵌入;如果IoU低于a2则内核嵌入被定义为负嵌入。

  3. 只考虑与GT掩码匹配的内核进行训练,如果两个采样帧上两个区域与同一对象关联,则这两个内核匹配为positive,否则为negative。

2 学习链接跟踪内核Learning to Link Kernels

3 学习融合内核Learning to Fuse Kernels

模块如图4中间下方

前面的Link步骤可能只关注跟踪一致性 ,而忽略了分割的一致性。

为了解决这个问题,在 K-Net 的帧之间进行内核融合。具体步骤如K-Net一致。

相关推荐
冬奇Lab7 小时前
Workflow 系列(01):基础理论——三种执行模型与 Anthropic 5 种模式
人工智能·agent·工作流引擎
冬奇Lab7 小时前
每日一个开源项目(第143篇):page-agent - 纯 JS 的网页 GUI Agent,无需截图、无需插件、无需后端
前端·人工智能·agent
程序员cxuan9 小时前
虽迟但到!GPT-5.6 终于来了!
人工智能·后端·程序员
ZhengEnCi11 小时前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒11 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
不加辣椒13 小时前
第12章 工具调用与 Agent 提示工程
人工智能
用户16931761726613 小时前
前端给AI消息做日期分组与时间线
人工智能
i晟13 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户2527362781414 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩14 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent