前沿技术借鉴研讨-2026.4.9(视觉语言模型)

SurgPub-Video: A Comprehensive Surgical Video Framework for Enhanced Surgical Intelligence in Vision-Language Model (AAAI 2026) (A会)

核心内容:

这篇论文解决了手术领域视觉语言模型(VLM)仅依赖帧级数据、缺乏高质量视频级手术知识数据的关键问题,提出了一套包含大规模高质量手术视频数据集、专用视频级手术 VLM 模型、多任务评测基准的完整解决方案,大幅提升了手术场景的视频级视觉语言理解能力,是手术智能领域的重要突破。

核心挑战:

  1. 数据层面:仅基于帧级数据集训练,缺乏视频级标注,且现有数据存在多样性不足、标注粒度粗、数据源不可靠(如社交媒体视频无同行评审)的问题;
  2. 模型层面:主流手术 VLM 基于传统 LLaVA 架构,仅支持帧级输入,无显式的时间建模能力,无法捕捉手术流程的连续时序关系;
  3. 评测层面:缺乏覆盖多专科、多任务的视频级手术 VQA(视觉问答)基准,无法全面评估模型的手术视频理解能力。

核心贡献1:构建 SurgPub-Video:首个大规模、高可信度的视频级手术 VQA 数据集

  • 数据来源:从25 本同行评审的临床医学期刊爬取,共 3538 个原始手术视频,经处理得到 10926 个视频片段,保证临床可信度和权威性;
  • 数据规模:覆盖11 个外科专科、75 种手术类型,包含 2500 万标注帧、48520 个 VQA 问答对,涉及 1823 个解剖结构、40 种手术器械、1290 个独特手术步骤;
  • 标注特点:结合音频转录文本 + 手术相关文献记录生成问答对,包含开放式和选择题型,覆盖器械识别、解剖结构识别、手术流程识别、手术规划、通用手术知识5 类任务,且经医学专家审核,保证语义丰富性和医学准确性;
  • 核心优势:是目前唯一专为视频级手术 VQA设计的数据集,相比此前帧级数据集,具备完整的时间连续性、临床真实性、语义丰富性。

核心贡献2:提出 SurgLLaVA-Video:专用的视频级手术视觉语言模型

基于 TinyLLaVA-Video 架构优化,适配手术视频的时序理解需求,仅 30 亿参数却性能超越大参数量模型:

  • 视觉编码器:提取视频片段的帧级视觉特征,保留手术画面的空间信息;
  • 视频重采样器:核心创新模块,将帧级特征动态投影为固定数量的可学习查询向量,在保留帧间时序关系的同时降低计算量,解决了视频级输入的时序建模问题;
  • 大语言模型(LLM):将视觉特征与文本问题拼接,进行联合推理并生成答案。
  • 训练策略:冻结视觉编码器,仅微调视频重采样器和 LLM,基于 SurgPub-Video 的 VQA 对完成训练,同时支持视频级和帧级双输入,兼顾手术流程整体理解和局部细节分析。

核心贡献3:建立 SurgPub-Video Benchmark:多专科、多任务的视频级手术 VQA 评测基准

为全面评估手术 VLM 的视频理解能力,构建了标准化评测基准:

  • 数据构成:从 SurgPub-Video 中随机采样 20% 的 VQA 对(共 3337 个样本),剔除相似样本以缓解数据不平衡,调整各专科占比(如心脏外科降至 38.6%,血管外科提升至 11.9%);
  • 评测维度:包含整体准确率、专科专属准确率、任务专属准确率,覆盖 11 个外科专科和 5 类核心 VQA 任务。

CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning (AAAI 2026) (A会)

核心内容:

提出了首个专为多模态上下文学习(Multimodal ICL)设计的免训练图像 Token 裁剪方法 CATP,解决现有裁剪方法在多图、图文交错 ICL 场景下精度暴跌、效率不足的问题,实现精度提升 + 推理加速双赢。

Stage 1:编码器→解码器之间(预裁剪)

从两个维度打分,贪心选最优子集:

  • 文本语义对齐:保留和配对文本最相关的视觉 Token
  • 特征多样性:避免保留高度相似的冗余 Token
  • 作用:先过滤低信息 Token,减轻解码器压力。

Stage 2:解码器浅层(精裁剪)

用渐进自适应策略:

  • 先把所有上下文示例(ICD)图像当作整体,结合层间注意力变化 + 查询语义关联裁剪
  • 再用蒸馏后的上下文,指导裁剪查询图像 Token
  • 作用:精准抓住 ICL 最关键的上下文 - 查询交互,不破坏推理逻辑。

Make LVLMs Focus: Context-Aware Attention Modulation for Better Multimodal In-Context Learning (AAAI 2026) (A会)

核心内容:

提出无需训练、即插即用的 CAMA 方法,解决大视觉语言模型(LVLM)多模态上下文学习(ICL)不稳定、注意力失效问题。

核心挑战:

  1. 浅层:图文对齐弱
    模型在每个图文对内部,无法把注意力放到和文本语义匹配的关键视觉区域。
  2. 中层:查询 - 示例分配乱
    模型不会根据查询问题,给相关的上下文示例(ICD)分配更多注意力。
  3. 附加问题:位置偏差,前面的示例更容易被忽略。

CAMA 在推理阶段直接修改注意力 logit,不训练、不微调、不改模型结构。

Stage I:ICD 内视觉定位(浅层)

定位每个示例里和问答最相关的图像 token,用动态注意力增量计算关键视觉 token,放大这些 token 的注意力权重,解决图文不对齐

Stage II:以查询为中心的路由(中层)

识别对查询最敏感的注意力头,按查询与示例的相似度,重新分配注意力,让模型更关注有用的上下文示例

加入位置衰减因子,抵消序列位置偏差

相关推荐
IT_陈寒2 小时前
Redis的SETNX并发问题让我加了三天班
前端·人工智能·后端
用户5191495848454 小时前
Windows 渗透测试载荷加载器 POC 工具集
人工智能·aigc
大树884 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
通信小呆呆4 小时前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
施小赞4 小时前
普通 RAG vs GraphRAG 核心对比
人工智能·ai
EAIReport4 小时前
RuoYi-AI 企业级AI开发平台实战详解
人工智能
HelloWorld__来都来了4 小时前
【每日学术速报】2026-06-15
人工智能·具身智能
H__Rick4 小时前
自动对焦学习-3
人工智能·学习·计算机视觉
SpaceAIGlobal5 小时前
AI 生成 PPT 工具深度评测与选型指南
人工智能·powerpoint