基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

文章目录

  • [CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery](#CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery)

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

摘要

  1. 医学生和初级外科医生经常依赖于资深外科医生和专家来回答他们在学习手术过程中的问题,但专家通常忙于临床和学术工作,很难提供指导。
  2. 现有基于深度学习的外科视觉问题回答(VQA)系统只能提供简单的答案,而无法给出答案的位置信息。同时,视觉-语言(ViL)嵌入在这类任务中也鲜有研究。
  3. 因此,一个能够提供视觉问题定位回答(VQLA)的系统对于医学生和初级外科医生学习和理解手术视频会很有帮助。
    论文提出了一种基于端到端Transformer的CAT-ViL (Co-Attention gaTed Vision-Language)嵌入模型用于外科VQLA任务,不需要通过检测模型进行特征提取。
    代码地址

方法

实验结果




相关推荐
rollingman4 分钟前
WPF 学习《一》
学习·wpf·listview
WZF-Sang9 分钟前
Linux—进程概念学习-03
linux·运维·服务器·c语言·开发语言·学习·vim
美狐美颜sdk10 分钟前
从源码到平台:基于第三方视频美颜SDK开发实时直播美颜系统
深度学习·计算机视觉·音视频·直播美颜sdk·视频美颜sdk·美颜api·主播美颜插件
Deepcong22 分钟前
yolov11的目标检测理论、tensorrt实现推理
人工智能·yolo·目标检测
肾透侧视攻城狮29 分钟前
网络空间安全之一个WH的超前沿全栈技术深入学习之路(11)——实战之DNMAP 分布式集群执行大量扫描任务:就怕你学成黑客啦!
分布式·学习·安全·web安全·网络安全·安全威胁分析·可信计算技术
爱喝白开水a1 小时前
基于Transformer的图像处理预训练模型
图像处理·人工智能·深度学习·transformer·预训练·ai大模型·计算机技术
小志biubiu1 小时前
【C++11】可变参数模板/新的类功能/lambda/包装器--C++
开发语言·c++·笔记·学习·c++11·c11
做人求其滴1 小时前
如何多人在同一个局域网下连接Mysql数据库?怎么将 MySQL 数据库共享给他人?保姆级教程idea,Navicat连接
数据库·学习·mysql·intellij-idea·idea
weixin_431470861 小时前
卷积神经网络实现图像分类
深度学习·分类·cnn
只怕自己不够好1 小时前
OpenCV 图像轮廓查找与绘制全攻略:从函数使用到实战应用详解
人工智能·opencv·计算机视觉