基于协同注意力的视觉-语言嵌入用于机器人手术视觉问题定位回答

小杨小杨12024-06-06 9:06

文章目录

[CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery](#CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery)

CAT-ViL: Co-attention Gated Vision-Language Embedding for Visual Question Localized-Answering in Robotic Surgery

摘要

医学生和初级外科医生经常依赖于资深外科医生和专家来回答他们在学习手术过程中的问题,但专家通常忙于临床和学术工作,很难提供指导。
现有基于深度学习的外科视觉问题回答(VQA)系统只能提供简单的答案,而无法给出答案的位置信息。同时,视觉-语言(ViL)嵌入在这类任务中也鲜有研究。
因此,一个能够提供视觉问题定位回答(VQLA)的系统对于医学生和初级外科医生学习和理解手术视频会很有帮助。
论文提出了一种基于端到端Transformer的CAT-ViL (Co-Attention gaTed Vision-Language)嵌入模型用于外科VQLA任务,不需要通过检测模型进行特征提取。
代码地址

方法

实验结果

上一篇：C++STL简介

下一篇：Transformer的Encoder和Decoder之间的交互

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Window 10部署openclaw报错node.exe : npm error code 128 05本地部署 OpenClaw + DeepSeek-R1 完全指南 06Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 07OpenClaw优化飞书API 额度已耗尽问题 08OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 09小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）10OpenClaw 飞书机器人不回复消息？3 小时踩坑总结