论文阅读: Semantics-guided Triplet Loss

ICCV 2021

Abstract

  • 一个度量学习方法,通过浏览语义引导的局部集合去优化内在深度表示。
  • 一个新颖的特征融合模块能有效利用跨模态特异质特征。

Senantics-guided Triplet Loss

基本假设:

  • 在场景语义分割图像中,目标内部相邻像素拥有同样的深度值,而跨目标边界上深度值变化很大。

方法

  • 将语义图像分割成KxK大小的块,stride为1。在每一个块,中心点为anchor,与anchor有相同标签的点为positive 像素 P i + P_i^+ Pi+,反之为Negative像素 P i − P_i^- Pi−。

  • 如果 ∣ P i − ∣ |P_i^-| ∣Pi−∣=0,则 P i P_i Pi位于目标内部,若 ∣ P i − ∣ |P_i^-| ∣Pi−∣和 ∣ P i + ∣ |P_i^+| ∣Pi+∣都大与0,意味着 P i P_i Pi跨域了边界。

  • 对正负距离的定义:

  • 目的在于减少anchor与正样本的距离增加与负样本的距离。

  • 然而目标间的深度变化并非必然的远,因此当负距离超过正距离一定程度,设置一个超参:

  • semantics-guided triplet los L S G T L_{SGT} LSGT是 L p i L_{p_i} Lpi的均值,但只包含满足条件: ∣ P i − ∣ |P_i^-| ∣Pi−∣和 ∣ P i + ∣ |P_i^+| ∣Pi+∣都大于T。

(To be continued)

相关推荐
大模型最新论文速读13 小时前
GRPO 丢失的组内排序信息,LamPO 补回来了
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Rocky Ding*16 小时前
深入浅出讲解ERNIE-Image图像创作大模型
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
小马哥crazymxm2 天前
Arxiv论文周选 (2026-W21)
论文阅读·人工智能·考研
传说故事3 天前
【论文阅读】MEM: Multi-Scale Embodied Memory for Vision Language Action Models
论文阅读·人工智能·具身智能·vla
传说故事3 天前
【论文阅读】VGGT-Ω
论文阅读·人工智能·3d·具身智能
数智工坊4 天前
【Inner Monologue论文阅读】: 首次将大语言模型嵌入机器人控制闭环,实现自我反思和动态行为调整
论文阅读·人工智能·算法·语言模型·机器人·无人机
传说故事4 天前
【论文阅读】RLDX-1
论文阅读·人工智能·具身智能·vla
传说故事4 天前
【论文阅读】StereoVLA: Enhancing Vision-Language-Action Models with Stereo Vision
论文阅读·人工智能·具身智能·vla
传说故事4 天前
【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control
论文阅读·人工智能·具身智能·wam
传说故事5 天前
【论文阅读】GEN-0: Embodied Foundation Models That Scale with Physical Interaction
论文阅读·人工智能·机器人·具身智能