基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

文章目录

  • [CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery](#CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery)

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

摘要

  1. 医学生和初级外科医生经常依赖于资深外科医生和专家来回答他们在学习手术过程中的问题,但专家通常忙于临床和学术工作,很难提供指导。
  2. 现有基于深度学习的外科视觉问题回答(VQA)系统只能提供简单的答案,而无法给出答案的位置信息。同时,视觉-语言(ViL)嵌入在这类任务中也鲜有研究。
  3. 因此,一个能够提供视觉问题定位回答(VQLA)的系统对于医学生和初级外科医生学习和理解手术视频会很有帮助。
    论文提出了一种基于端到端Transformer的CAT-ViL (Co-Attention gaTed Vision-Language)嵌入模型用于外科VQLA任务,不需要通过检测模型进行特征提取。
    代码地址

方法

实验结果




相关推荐
AiTop1008 小时前
Claude Code 推出 Agent View:命令行编程正式进入“多线程并发“时代
开发语言·人工智能·ai·aigc
dhashdoia9 小时前
GPT-5.5 代码开发实战:Codex与Browser Use深度集成与星链4SAPI优化方案
java·数据库·人工智能·gpt·架构
碧海银沙音频科技研究院9 小时前
音箱在加入 NN AEC(神经网络声学回声消除) 后出现反复重启问题解决
人工智能·深度学习·算法
小陈phd9 小时前
多模态大模型学习笔记(四十)——从“看字”到“懂结构”:版面分析与表格解析技术全解
笔记·学习
Jmayday9 小时前
NLP第三章:注意力机制
人工智能·自然语言处理·nlp
xuhaoyu_cpp_java9 小时前
SpringMVC学习(二)
java·经验分享·笔记·学习·spring
拓朗工控9 小时前
面向边缘计算与大模型应用的IBOX-602GT工控机技术解析
人工智能·边缘计算
迁移科技9 小时前
AI+3D视觉赋能铝制静盘自动化上下料,破解反光堆叠难题
人工智能·3d·自动化
碳基硅坊9 小时前
Claude Mythos:Anthropic 最强模型的技术解析与安全评估
人工智能·claude·claude mythos
计算机毕设源码分享8888889 小时前
中班幼儿户外体育游戏教师指导的现状及对策研究——以潍坊市A幼儿园为例
人工智能