基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

文章目录

  • [CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery](#CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery)

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

摘要

  1. 医学生和初级外科医生经常依赖于资深外科医生和专家来回答他们在学习手术过程中的问题,但专家通常忙于临床和学术工作,很难提供指导。
  2. 现有基于深度学习的外科视觉问题回答(VQA)系统只能提供简单的答案,而无法给出答案的位置信息。同时,视觉-语言(ViL)嵌入在这类任务中也鲜有研究。
  3. 因此,一个能够提供视觉问题定位回答(VQLA)的系统对于医学生和初级外科医生学习和理解手术视频会很有帮助。
    论文提出了一种基于端到端Transformer的CAT-ViL (Co-Attention gaTed Vision-Language)嵌入模型用于外科VQLA任务,不需要通过检测模型进行特征提取。
    代码地址

方法

实验结果




相关推荐
霍格沃兹测试开发学社-小明1 分钟前
测试开发技术路线全新升级:在云原生与AI时代构建核心竞争力
大数据·人工智能·云原生
jinxinyuuuus3 分钟前
TikTok Watermark Remover:用户行为模拟、动态Token认证与视频流的去噪
网络·人工智能·计算机视觉·架构
说私域7 分钟前
基于链动2+1模式AI智能名片S2B2C商城小程序的微商运营内容研究
大数据·人工智能·小程序
free-elcmacom9 分钟前
机器学习项目实战——鸢尾花大作战
人工智能·机器学习
一尘之中9 分钟前
冰海通航的科技密码:葫芦岛港的破冰实践与智慧港口建设
人工智能·科技·ai写作
longze_710 分钟前
Uigenius:革新 UI/UX 设计的 AI 利器
人工智能·ui·ai·ux·prototype·uigenius
新智元11 分钟前
30 年数学难题,AI 仅 6 小时告破!陶哲轩:ChatGPT 们都失败了
人工智能·openai
自不量力的A同学11 分钟前
Mureka V7.6 和 Mureka O2 模型正式发布
人工智能
TechMasterPlus11 分钟前
调用千问大模型服务
人工智能·python
菠菠萝宝12 分钟前
【Java手搓OpenManus】-5- 工具系统设计
java·开发语言·人工智能·openai·agent·manus