参考:北大CVPR 2022 Oral新作Video K-Net:视频全景分割模型 - 知乎
(一知半解)
K-Net: 使用一组可学习的卷积核统一图像分割(实例,语义)。
Video K-Net通过基于内核的外观建模和跨时间内核交互,学会了同时分割和跟踪视频中的"things"和"stuff"(语义分割和实例分割)。
三个改进,分别包括:
-
通过改进的对比学习损失学习内核关联嵌入
-
学习链接跟踪内核
-
学习融合内核
网络结构:
1 学习内核关联嵌入Kernel Association Embeddings
模块如图4右下角
学习内核关联嵌入的目的是对两帧之间的实例内核嵌入进行跟踪实例对比学习。
-
在原来的K-Net解码器之后添加了一个额外的轻量级嵌入头,以提取每个内核的嵌入特征。嵌入头通过几个完全连接层实现。
-
将实例内核对应的mask prediction 与GT掩码进行比较,如果对象对应的掩码的IoU高于a1,则内核嵌入被定义为对象的正嵌入;如果IoU低于a2则内核嵌入被定义为负嵌入。
-
只考虑与GT掩码匹配的内核进行训练,如果两个采样帧上两个区域与同一对象关联,则这两个内核匹配为positive,否则为negative。
2 学习链接跟踪内核Learning to Link Kernels
3 学习融合内核Learning to Fuse Kernels
模块如图4中间下方
前面的Link步骤可能只关注跟踪一致性 ,而忽略了分割的一致性。
为了解决这个问题,在 K-Net 的帧之间进行内核融合。具体步骤如K-Net一致。