视频分割Video K-Net

参考:北大CVPR 2022 Oral新作Video K-Net:视频全景分割模型 - 知乎

(一知半解)

K-Net: 使用一组可学习的卷积核统一图像分割(实例,语义)。

Video K-Net通过基于内核的外观建模和跨时间内核交互,学会了同时分割和跟踪视频中的"things"和"stuff"(语义分割和实例分割)。

三个改进,分别包括:

  1. 通过改进的对比学习损失学习内核关联嵌入

  2. 学习链接跟踪内核

  3. 学习融合内核

网络结构:

1 学习内核关联嵌入Kernel Association Embeddings

模块如图4右下角

学习内核关联嵌入的目的是对两帧之间的实例内核嵌入进行跟踪实例对比学习。

  1. 在原来的K-Net解码器之后添加了一个额外的轻量级嵌入头,以提取每个内核的嵌入特征。嵌入头通过几个完全连接层实现。

  2. 将实例内核对应的mask prediction 与GT掩码进行比较,如果对象对应的掩码的IoU高于a1,则内核嵌入被定义为对象的正嵌入;如果IoU低于a2则内核嵌入被定义为负嵌入。

  3. 只考虑与GT掩码匹配的内核进行训练,如果两个采样帧上两个区域与同一对象关联,则这两个内核匹配为positive,否则为negative。

2 学习链接跟踪内核Learning to Link Kernels

3 学习融合内核Learning to Fuse Kernels

模块如图4中间下方

前面的Link步骤可能只关注跟踪一致性 ,而忽略了分割的一致性。

为了解决这个问题,在 K-Net 的帧之间进行内核融合。具体步骤如K-Net一致。

相关推荐
Luhui Dev1 分钟前
大角几何 MCP 服务上线:让 AI Agent 直接完成几何作图
人工智能·数学·机器学习·大角几何·luhuidev
纤纡.3 分钟前
阿里云 DSW 实战:从零完成 Qwen3-4B 大模型 LoRA 微调全流程
人工智能·阿里云·语言模型·云计算
AI视觉网奇10 分钟前
3d 打印模型修复
人工智能·3d
“码”力全开21 分钟前
深度解析:基于 Docker 与边缘计算的 AI 视频管理平台架构——打通 GB28181/RTSP 协议与“源码交付”的高效集成方案
人工智能·docker·边缘计算
wangqiaowq25 分钟前
预训练 后预训练 微调
人工智能·深度学习·机器学习
LONGZETECH32 分钟前
架构师实战拆解|无人机智慧实训SaaS中台:断电续考、AI组卷、多端同步核心设计
大数据·人工智能·架构·系统架构·无人机
战族狼魂37 分钟前
集 “自动飞行、智能识别、实时预警、勤务联动” 于一体的高速公路应急车道无人机检测系统方案
java·人工智能·大模型·无人机
月光船幽幽37 分钟前
Helio-Core临界控制:守护拓扑量子稳定
人工智能·科技·动态规划·拓扑学
jkyy201439 分钟前
大模型重构饮食健康服务链路:多维技术赋能膳食管理智能化升级
大数据·人工智能·信息可视化·重构·健康医疗
罗西的思考41 分钟前
【Agentic RL / 强化学习 / OPD】OpenClaw-RL 源码阅读笔记 --- (4)--- 系统架构
人工智能·算法·机器学习