前沿技术借鉴研讨-2026.4.9（视觉语言模型）

SurgPub-Video: A Comprehensive Surgical Video Framework for Enhanced Surgical Intelligence in Vision-Language Model (AAAI 2026) (A会)

核心内容：

这篇论文解决了手术领域视觉语言模型（VLM）仅依赖帧级数据、缺乏高质量视频级手术知识数据的关键问题，提出了一套包含大规模高质量手术视频数据集、专用视频级手术 VLM 模型、多任务评测基准的完整解决方案，大幅提升了手术场景的视频级视觉语言理解能力，是手术智能领域的重要突破。

核心挑战：

核心贡献1：构建 SurgPub-Video：首个大规模、高可信度的视频级手术 VQA 数据集

数据来源：从25 本同行评审的临床医学期刊爬取，共 3538 个原始手术视频，经处理得到 10926 个视频片段，保证临床可信度和权威性；
数据规模：覆盖11 个外科专科、75 种手术类型，包含 2500 万标注帧、48520 个 VQA 问答对，涉及 1823 个解剖结构、40 种手术器械、1290 个独特手术步骤；
标注特点：结合音频转录文本 + 手术相关文献记录生成问答对，包含开放式和选择题型，覆盖器械识别、解剖结构识别、手术流程识别、手术规划、通用手术知识5 类任务，且经医学专家审核，保证语义丰富性和医学准确性；
核心优势：是目前唯一专为视频级手术 VQA设计的数据集，相比此前帧级数据集，具备完整的时间连续性、临床真实性、语义丰富性。

核心贡献2：提出 SurgLLaVA-Video：专用的视频级手术视觉语言模型

基于 TinyLLaVA-Video 架构优化，适配手术视频的时序理解需求，仅 30 亿参数却性能超越大参数量模型：

视觉编码器：提取视频片段的帧级视觉特征，保留手术画面的空间信息；
视频重采样器：核心创新模块，将帧级特征动态投影为固定数量的可学习查询向量，在保留帧间时序关系的同时降低计算量，解决了视频级输入的时序建模问题；
大语言模型（LLM）：将视觉特征与文本问题拼接，进行联合推理并生成答案。
训练策略：冻结视觉编码器，仅微调视频重采样器和 LLM，基于 SurgPub-Video 的 VQA 对完成训练，同时支持视频级和帧级双输入，兼顾手术流程整体理解和局部细节分析。

核心贡献3：建立 SurgPub-Video Benchmark：多专科、多任务的视频级手术 VQA 评测基准

为全面评估手术 VLM 的视频理解能力，构建了标准化评测基准：

数据构成：从 SurgPub-Video 中随机采样 20% 的 VQA 对（共 3337 个样本），剔除相似样本以缓解数据不平衡，调整各专科占比（如心脏外科降至 38.6%，血管外科提升至 11.9%）；
评测维度：包含整体准确率、专科专属准确率、任务专属准确率，覆盖 11 个外科专科和 5 类核心 VQA 任务。

核心内容：

提出了首个专为多模态上下文学习（Multimodal ICL）设计的免训练图像 Token 裁剪方法 CATP，解决现有裁剪方法在多图、图文交错 ICL 场景下精度暴跌、效率不足的问题，实现精度提升 + 推理加速双赢。

Stage 1：编码器→解码器之间（预裁剪）

从两个维度打分，贪心选最优子集：

Stage 2：解码器浅层（精裁剪）

用渐进自适应策略：

核心内容：

提出无需训练、即插即用的 CAMA 方法，解决大视觉语言模型（LVLM）多模态上下文学习（ICL）不稳定、注意力失效问题。

核心挑战：

CAMA 在推理阶段直接修改注意力 logit，不训练、不微调、不改模型结构。

Stage I：ICD 内视觉定位（浅层）

定位每个示例里和问答最相关的图像 token，用动态注意力增量计算关键视觉 token，放大这些 token 的注意力权重，解决图文不对齐

Stage II：以查询为中心的路由（中层）

识别对查询最敏感的注意力头，按查询与示例的相似度，重新分配注意力，让模型更关注有用的上下文示例

加入位置衰减因子，抵消序列位置偏差