基于三元组一致性学习的单目内窥镜里程计估计

文章目录

  • [TCL: Triplet Consistent Learning for Odometry Estimation of Monocular Endoscope](#TCL: Triplet Consistent Learning for Odometry Estimation of Monocular Endoscope)

TCL: Triplet Consistent Learning for Odometry Estimation of Monocular Endoscope

摘要

单目图像中深度和姿态的估计对于计算机辅助导航至关重要。由于很难获得深度和姿态的真值标注,无监督训练方法在内窥镜场景中具有广阔的前景。然而,内窥镜数据集缺乏足够的视觉变化多样性,图像三元组中也频繁出现外观不一致的问题。

本文提出了一种三元组一致性学习框架(TCL),包括两个模块:几何一致性模块(GC)和外观不一致模块(AiC)。为丰富内窥镜数据集的多样性,GC模块生成合成三元组并通过特定损失函数强制实现几何一致性。为减少图像三元组中的外观不一致,AiC模块引入三元组遮蔽策略来作用于光度损失。
代码地址

方法

图1描述三元组一致性学习框架(TCL)的总体架构,包含两个模块:

  1. 几何一致性模块(GC):
  • 利用透视视图合成技术生成合成三元组
  • 通过深度一致性损失Ldc和姿态一致性损失Lpc来强制实现几何一致性
  1. 外观不一致模块(AiC):
  • 基于翘曲三元组生成三元组掩码
  • 将掩码应用于光度损失Lp,以减少外观不一致的影响

该框架可以轻松嵌入到无监督的结构从运动(SfM)方法中,无需增加额外的模型参数。这种设计旨在提高单目内窥镜里程计估计的精度,特别是在内窥镜数据集缺乏视觉变化和存在外观不一致的情况下。

实验结果




相关推荐
开放知识图谱几秒前
论文浅尝 | LightPROF:一种轻量级推理框架,用于大型语言模型在知识图谱上的应用(AAAI2025)
人工智能·语言模型·自然语言处理·知识图谱
vlln3 分钟前
【论文速读】LLM+AL: 用符号逻辑校准语言模型的规划能力
人工智能·语言模型·自然语言处理
Antonio91516 分钟前
【图像处理】图像错切变换
图像处理·人工智能
文火冰糖的硅基工坊20 分钟前
[人工智能-大模型-85]:大模型应用层 - AI/AR眼镜:华为智能眼镜、苹果智能眼镜、Google Glass智能眼镜的软硬件技术架构
人工智能·华为·ar
B站计算机毕业设计之家27 分钟前
计算机视觉:python手写数字识别系统 手写数字检测 CNN算法 卷积神经网络 OpenCV和Keras模型 大数据毕业设计(建议收藏)✅
python·神经网络·opencv·计算机视觉·cnn·手写数字·数字识别
wolfseek28 分钟前
opencv模版匹配
c++·人工智能·opencv·计算机视觉
B站计算机毕业设计之家32 分钟前
Python手势识别检测系统 基于MediaPipe的改进SSD算法 opencv+mediapipe 深度学习 大数据 (建议收藏)✅
python·深度学习·opencv·计算机视觉·1024程序员节
犽戾武32 分钟前
1. 简单回顾Numpy神经网络
人工智能·神经网络·numpy
Lab4AI大模型实验室42 分钟前
【每日Arxiv热文】还在为视频编辑发愁?港科大&蚂蚁集团提出Ditto框架刷新SOTA!
人工智能·计算机视觉·视频编辑·ai agent·智能体学习
阿里云大数据AI技术44 分钟前
云栖实录 | 实时计算 Flink 全新升级 - 全栈流处理平台助力实时智能
大数据·人工智能