基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

文章目录

  • [CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery](#CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery)

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

摘要

  1. 医学生和初级外科医生经常依赖于资深外科医生和专家来回答他们在学习手术过程中的问题,但专家通常忙于临床和学术工作,很难提供指导。
  2. 现有基于深度学习的外科视觉问题回答(VQA)系统只能提供简单的答案,而无法给出答案的位置信息。同时,视觉-语言(ViL)嵌入在这类任务中也鲜有研究。
  3. 因此,一个能够提供视觉问题定位回答(VQLA)的系统对于医学生和初级外科医生学习和理解手术视频会很有帮助。
    论文提出了一种基于端到端Transformer的CAT-ViL (Co-Attention gaTed Vision-Language)嵌入模型用于外科VQLA任务,不需要通过检测模型进行特征提取。
    代码地址

方法

实验结果




相关推荐
Best_Me0714 分钟前
FiLo++的框架图介绍
人工智能·算法·机器学习·职场和发展·蓝桥杯
今天也是元气满满的一天呢17 分钟前
java学习之数据结构:四、树(代码补充)
java·数据结构·学习
Francek Chen18 分钟前
【现代深度学习技术】现代循环神经网络07:序列到序列学习(seq2seq)
人工智能·pytorch·rnn·深度学习·神经网络·序列
每天都要写算法(努力版)2 小时前
【神经网络与深度学习】深度学习中的生成模型简介
人工智能·深度学习·神经网络·生成模型
进来有惊喜2 小时前
过采样处理
人工智能
LVerrrr3 小时前
Missashe考研日记-day30
学习·考研
羑悻的小杀马特3 小时前
【Linux篇章】Linux 进程信号1:解锁系统高效运作的 “隐藏指令”,开启性能飞跃新征程(精讲信号产生和保存)
linux·运维·服务器·学习·操作系统·进程信号
shao9185163 小时前
Gradio全解20——Streaming:流式传输的多媒体应用(5)——基于WebRTC的摄像头实时目标检测
人工智能·目标检测·webrtc·yolov10·twilio·yoloe·turn服务器
蹦蹦跳跳真可爱5893 小时前
Python----机器学习(模型评估:准确率、损失函数值、精确度、召回率、F1分数、混淆矩阵、ROC曲线和AUC值、Top-k精度)
人工智能·python·机器学习
机器人之树小风5 小时前
KUKA机器人快速启动设置
经验分享·科技·机器人