【每日学术速报】2026-06-15

▌ TL;DR（今日摘要）

• 今日推送 6 篇论文：MICCAI 2025 × 3（手术AI × 2、半监督分割 × 1）、ICRA 2026 × 1、具身智能预印本 × 2

• 医学AI焦点：SurgTPGS 首次将文本提示引入3D手术场景理解；ReSurgSAM2 用自然语言参考驱动手术视频长期追踪；SSL-MedSAM2 以SAM2生成伪标签破解半监督医学分割

• 具身智能焦点：AnchorDream 用视频扩散生成具身感知训练数据（仿真+36%、真机近翻倍）；HEX 跨7种仿人机器人全身操控；Do What You Say 零成本运行时引导VLA言行一致

• 综述主题：用"提示"替代"标注"------2026年AI研究中的数据效率革命

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

一、医学影像与手术AI · 精选论文

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

① SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting

【SurgTPGS：文本可提示三维高斯泼溅的手术场景语义理解】

作者与机构：Yiming Huang, Long Bai, Beilei Cui, Kun Yuan, Guankun Wang, Mobarakol Islam, Nicolas Padoy, Nassir Navab, Hongliang Ren（香港中文大学（深圳）/ 法国斯特拉斯堡大学 / 德国慕尼黑工业大学等）

发表来源：MICCAI 2025（Springer LNCS）；arXiv 2506.23309，2025年6月29日

论文链接：https://www.google.com/url?q=https://arxiv.org/abs/2506.23309&source=gmail&ust=1781619640407000&sa=E | GitHub: https://www.google.com/url?q=https://github.com/lastbasket/SurgTPGS&source=gmail&ust=1781619640407000&sa=E

【摘要】

SurgTPGS是首个将文本可提示能力引入手术3D场景重建与语义理解的框架。现有手术3D重建方法仅关注几何精度，无法支持语义查询。SurgTPGS通过将SAM与视觉-语言模型深度整合，构建3D语义特征学习策略：①语义感知形变追踪------使高斯基元能够捕获软组织持续形变，实现语义与几何的协同精确建模；②语义区域感知优化------利用区域级语义信息监督训练，提升重建质量与语义平滑性。外科医生可通过自然语言直接查询3D手术场景，实现无需额外标注的智能手术室交互。

【应用场景】

语言驱动的手术器械定位与状态查询；腹腔镜手术自主导航3D语义地图；术中AI辅助决策自然语言接口

【主要方法】

3D Gaussian Splatting + SAM + 视觉-语言模型 → 语义感知形变追踪 + 区域感知语义优化；在真实腹腔镜手术视频数据集上验证

【优点】

首个文本可提示手术3D重建框架；MICCAI 2025正式发表；标注负担从像素掩码转向自然语言描述；代码开源

【缺点与局限】

实时性有待提升（高斯优化计算量大）；对快速器械运动的追踪鲁棒性需进一步验证；VLM推理成本较高影响边缘部署

【未来可优化方向】

① 与实时内窥镜SLAM结合支持真正的术中导航；② 扩展至超声+内窥镜多模态联合场景理解；③ 手术动作序列识别与流程阶段自动识别

────────────────────────────────

② ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

【ReSurgSAM2：基于可信长期追踪的手术视频语义参考分割】

作者与机构：Jin Lab（Intelligent Medical Vision and Robotics，香港理工大学等）

发表来源：MICCAI 2025；arXiv 2505.08581，2025年5月

论文链接：https://www.google.com/url?q=https://arxiv.org/abs/2505.08581&source=gmail&ust=1781619640407000&sa=E | GitHub: https://www.google.com/url?q=https://github.com/jinlab-imvr/ReSurgSAM2&source=gmail&ust=1781619640407000&sa=E

【摘要】

手术视频分割的传统方案依赖密集像素标注，无法支持开放词汇的语义目标指定。ReSurgSAM2提出两阶段框架：①跨模态时空Mamba模型根据自然语言描述（如"追踪右手钳"）检测目标，生成精确初始分割；②可信初始帧选择策略自动识别最高置信度起始帧，结合多样性驱动长期记忆机制驱动SAM2进行稳健视频追踪。显著降低追踪漂移------在Ref-EndoVis17（器械）、Ref-EndoVis18（器械/组织）上分别超越次优方法14.17、7.76、3.19个J&F点，提升幅度可观。

【应用场景】

手术视频自动化器械追踪；自然语言引导的机器人手术辅助系统；手术视频标注半自动化平台

【主要方法】

跨模态时空Mamba（文本×视频特征交互）+ 可信初始帧选择策略 + SAM2长期视频追踪 + 多样性驱动记忆更新

【优点】

MICCAI 2025正式发表；J&F绝对提升14.17点领先显著；支持开放词汇目标指定；无需逐帧标注

【缺点与局限】

严重遮挡时追踪可靠性下降；依赖初始帧质量，极端低质量视频（如烟雾干扰）效果待验证；Mamba+SAM2组合实时性受限

【未来可优化方向】

① 扩展至解剖组织的长期追踪（如出血区域动态演变）；② 引入不确定性估计主动请求人工纠正；③ 构建手术视频语义参考分割统一基准与评测体系

────────────────────────────────

③ SSL-MedSAM2: A Semi-supervised Medical Image Segmentation Framework Powered by Few-shot Learning of SAM2

【SSL-MedSAM2：SAM2少样本学习驱动的半监督医学图像分割框架】

作者与机构：Zhendi Gong, Xin Chen（诺丁汉大学计算机学院，英国）

发表来源：MICCAI 2025 CARE Challenge；arXiv 2512.11548，2025年12月12日

论文链接：https://www.google.com/url?q=https://arxiv.org/abs/2512.11548&source=gmail&ust=1781619640408000&sa=E

【摘要】

标注稀缺是医学图像分析的核心制约。SSL-MedSAM2构建双分支协同半监督框架：①免训练少样本分支（TFFS-MedSAM2）直接利用预训练SAM2的强零样本能力，基于少量标注样本生成高质量伪标签；②全监督精化分支（FSL-nnUNet）以nnUNet为骨干迭代精化伪标签，两分支相互促进。在MICCAI 2025 CARE-LiSeg肝脏分割挑战赛中，GED4和T1 MRI的平均Dice分别达0.9710和0.9648，Hausdorff距离分别为20.07和21.97，性能领先。

【应用场景】

标注资源匮乏的临床医学图像分割；多中心数据快速适配；肝脏、腹腔器官大规模半监督分割

【主要方法】

SAM2零样本伪标签生成（TFFS-MedSAM2）+ nnUNet迭代精化（FSL-nnUNet）；双分支半监督协同框架

【优点】

SAM2伪标签分支无需重训练；双分支互补提升伪标签质量；Dice 0.97+优异成绩；框架简洁，可推广至其他解剖结构

【缺点与局限】

对于高度非典型病变（如不规则形状肿瘤）伪标签质量可能下降；当前仅验证肝脏分割；nnUNet精化分支计算开销不可忽视

【未来可优化方向】

① 扩展至3D体积分割（CT/MRI三维结构）；② 与主动学习结合，优先标注最难样本；③ 探索统一伪标签生成策略支持多解剖域联合学习

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

二、具身智能与机器人学习 · 精选论文

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

④ AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis

【AnchorDream：面向具身感知机器人数据合成的视频扩散模型复用】

作者与机构：Junjie Ye, Ruijie Xue, Basile Van Hoorick, Pavel Tokmakov, M. Zubair Irshad, Yue Wang, Vitor Guizilini（南加州大学 / Toyota Research Institute 等）

发表来源：IEEE International Conference on Robotics and Automation (ICRA) 2026；arXiv 2512.11797，2025年12月

论文链接：https://www.google.com/url?q=https://arxiv.org/abs/2512.11797&source=gmail&ust=1781619640408000&sa=E | 项目页: https://www.google.com/url?q=https://junjieye.com/AnchorDream/&source=gmail&ust=1781619640408000&sa=E

【摘要】

机器人学习的核心瓶颈是高质量演示数据的稀缺性。AnchorDream提出利用预训练视频扩散模型生成具身感知的合成机器人演示数据。核心创新是"具身锚定机制"：以机器人运动渲染作为扩散条件，在生成过程中锁定机器人形态，防止模型产生运动学上不可行的姿态幻觉，同时保持物体、环境的多样性与视觉真实性。生成的合成数据直接用于模仿学习策略训练，在仿真基准上获得相对36.4%提升，真实机器人测试成功率接近翻倍------展示了视频生成模型作为机器人"想象引擎"的巨大潜力。

【应用场景】

低成本机器人演示数据增广；无需物理环境建模的策略学习；跨场景泛化的合成数据生成

【主要方法】

预训练视频扩散模型 + 机器人运动渲染锚定条件 → 具身感知合成演示数据 → 模仿学习下游策略训练

【优点】

ICRA 2026正式发表；无需物理仿真器；真实机器人接近翻倍提升；锚定机制有效防止运动学幻觉

【缺点与局限】

长序列多步骤任务的生成数据质量待验证；锚定依赖精确机器人运动学模型；数据多样性与物理保真度权衡存在上限

【未来可优化方向】

① 扩展至双臂和仿人机器人的复杂操控数据合成；② 语言条件指定目标任务，实现按需数据生成；③ 与在线强化学习结合构建闭环数据迭代训练

────────────────────────────────

⑤ HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

【HEX：面向跨具身全身操控的仿人对齐专家框架】

作者与机构：Shuanghao Bai, Meng Li 等15位作者（北京人形机器人创新中心 / 西安交通大学 / 南开大学 / 北京大学）

发表来源：arXiv 2604.07993，2026年4月9日；目标投递 RSS 2026（待录用确认）

论文链接：https://www.google.com/url?q=https://arxiv.org/abs/2604.07993&source=gmail&ust=1781619640408000&sa=E | GitHub: https://www.google.com/url?q=https://github.com/Open-X-Humanoid/HEX&source=gmail&ust=1781619640408000&sa=E

【摘要】

现有VLA模型对机器人身体各部位独立处理，导致高自由度仿人机器人控制不稳定。HEX构建以状态为中心的全身协调操控框架，核心创新：①仿人对齐通用状态表示------在Tiankong 2.0/3.0、天鹰、宇树G1/H1、AgiBot、Leju等7种仿人机器人间构建异构具身的可扩展共享学习空间；②混合专家统一本体感知预测器（MoE-UPP）------从12M帧多具身轨迹数据建模全身协调与时序运动动态；③轻量级历史token总结历史观测，避免重复图像编码降低推理延迟。在快速反应和长时域操控任务中均达到最优表现。

【应用场景】

全尺寸仿人机器人全身协调操控部署；跨厂商机器人型号零样本策略迁移；高动态任务（如搬运、攀爬）的全身协调控制

【主要方法】

Qwen-VL骨干 + MoE统一本体感知预测器（UPP）+ 流匹配动作头 + 仿人对齐状态表示；7种具身，12M帧数据训练

【优点】

大规模数据（12M帧，7种具身）；MoE架构自然支持跨具身泛化；国产仿人机器人全覆盖；项目代码开源

【缺点与局限】

仅支持仿人机器人体系，不兼容非人形机器人（四足、轮式）；12M帧训练成本较高；轻量历史token在极长时域任务中的信息损失待评估

【未来可优化方向】

① 扩展到四足和轮式移动操控具身；② 视频提示零样本学习新技能（无需额外训练）；③ 与触觉传感器结合增强全身操控的接触力感知

────────────────────────────────

⑥ Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

【言行一致：通过运行时推理-动作对齐验证引导VLA模型】

作者与机构：Robot Learning Lab（Utah大学等多机构）

发表来源：arXiv 2510.16281，2025年10月（修订2026年1月）；目标投递 ICRA 2026（待录用确认）

论文链接：https://www.google.com/url?q=https://arxiv.org/abs/2510.16281&source=gmail&ust=1781619640408000&sa=E

【摘要】

推理型VLA模型（如π0、OpenVLA-OFT）会生成文本规划（Chain-of-Thought），但实际执行的动作与文本规划之间存在系统性不一致------模型"说一套做一套"。本文提出无需额外训练的运行时引导方法：①对VLA模型采样多条候选动作序列；②通过轻量仿真预测每条序列的执行结果；③以预训练VLM对执行结果与文本规划进行语义对齐评分，选择最一致序列执行。该方法零训练成本、即插即用，在多个机器人操控基准上显著提升任务成功率，从根本上降低推理型VLA在部署阶段"言行不一"的风险。

【应用场景】

推理型VLA模型的零成本可靠性提升；无数据环境下的VLA部署改进；长时域多步骤操控任务成功率增强

【主要方法】

运行时候选动作序列采样 + 轻量仿真执行预测 + VLM语义对齐评分（执行结果 vs 文本规划）+ 最优序列选择执行

【优点】

完全免训练（零额外数据成本）；对任意推理型VLA模型即插即用；显著提升多基准成功率；算法简洁可解释

【缺点与局限】

多序列采样增加推理时延（不适合高实时性场景）；依赖仿真预测精度（真实环境受限）；VLM对齐评分存在模型偏差风险

【未来可优化方向】

① 以世界模型替代轻量仿真，降低部署环境依赖；② 与规划树搜索结合实现更鲁棒的长时域对齐；③ 扩展至多机器人协作任务的集体言行一致性保障

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

综述短文 | 用"提示"替代"标注"：2026年AI研究中的数据效率革命

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

2026-06-15 | 约 2,100 字

【引言】

AI研究领域长期存在一个结构性悖论：最强大的模型需要最多的数据，而数据恰恰是医学影像和机器人学习中最昂贵的资源。一张精确标注的手术器械分割掩码，可能需要外科医生花费数分钟逐像素勾勒；一条高质量的机器人操控演示，则需要研究人员远程操控机器人数十次。这种"数据饥渴"不是技术问题，而是一道深层的结构性约束。

2026年6月，来自MICCAI 2025、ICRA 2026等顶级会议的六篇论文，正在从不同角度突破这一约束------而且这些解法共享一个令人印象深刻的方法论根基：用"提示"（prompt）和"生成"（generation）替代繁重的"标注"（annotation）与"重训练"（retraining）。

今日六篇论文，三篇来自手术AI（SurgTPGS、ReSurgSAM2、SSL-MedSAM2），三篇来自具身智能（AnchorDream、HEX、Do What You Say），它们合力描绘出一幅清晰的技术图景：数据效率，正在成为2026年最具价值的技术突破方向，而且医学AI和机器人学习两个领域正在走向共同的方法论答案。