【每日学术速报】2026-06-15

【每日学术速报】2026-06-15

▌ TL;DR(今日摘要)

• 今日推送 6 篇论文:MICCAI 2025 × 3(手术AI × 2、半监督分割 × 1)、ICRA 2026 × 1、具身智能预印本 × 2

• 医学AI焦点:SurgTPGS 首次将文本提示引入3D手术场景理解;ReSurgSAM2 用自然语言参考驱动手术视频长期追踪;SSL-MedSAM2 以SAM2生成伪标签破解半监督医学分割

• 具身智能焦点:AnchorDream 用视频扩散生成具身感知训练数据(仿真+36%、真机近翻倍);HEX 跨7种仿人机器人全身操控;Do What You Say 零成本运行时引导VLA言行一致

• 综述主题:用"提示"替代"标注"------2026年AI研究中的数据效率革命

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

一、医学影像与手术AI · 精选论文

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

① SurgTPGS: Semantic 3D Surgical Scene Understanding with Text Promptable Gaussian Splatting

【SurgTPGS:文本可提示三维高斯泼溅的手术场景语义理解】

作者与机构:Yiming Huang, Long Bai, Beilei Cui, Kun Yuan, Guankun Wang, Mobarakol Islam, Nicolas Padoy, Nassir Navab, Hongliang Ren(香港中文大学(深圳)/ 法国斯特拉斯堡大学 / 德国慕尼黑工业大学等)

发表来源:MICCAI 2025(Springer LNCS);arXiv 2506.23309,2025年6月29日

论文链接:https://www.google.com/url?q=https://arxiv.org/abs/2506.23309&source=gmail&ust=1781619640407000&sa=E | GitHub: https://www.google.com/url?q=https://github.com/lastbasket/SurgTPGS&source=gmail&ust=1781619640407000&sa=E

【摘要】

SurgTPGS是首个将文本可提示能力引入手术3D场景重建与语义理解的框架。现有手术3D重建方法仅关注几何精度,无法支持语义查询。SurgTPGS通过将SAM与视觉-语言模型深度整合,构建3D语义特征学习策略:①语义感知形变追踪------使高斯基元能够捕获软组织持续形变,实现语义与几何的协同精确建模;②语义区域感知优化------利用区域级语义信息监督训练,提升重建质量与语义平滑性。外科医生可通过自然语言直接查询3D手术场景,实现无需额外标注的智能手术室交互。

【应用场景】

语言驱动的手术器械定位与状态查询;腹腔镜手术自主导航3D语义地图;术中AI辅助决策自然语言接口

【主要方法】

3D Gaussian Splatting + SAM + 视觉-语言模型 → 语义感知形变追踪 + 区域感知语义优化;在真实腹腔镜手术视频数据集上验证

【优点】

首个文本可提示手术3D重建框架;MICCAI 2025正式发表;标注负担从像素掩码转向自然语言描述;代码开源

【缺点与局限】

实时性有待提升(高斯优化计算量大);对快速器械运动的追踪鲁棒性需进一步验证;VLM推理成本较高影响边缘部署

【未来可优化方向】

① 与实时内窥镜SLAM结合支持真正的术中导航;② 扩展至超声+内窥镜多模态联合场景理解;③ 手术动作序列识别与流程阶段自动识别

────────────────────────────────

② ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking

【ReSurgSAM2:基于可信长期追踪的手术视频语义参考分割】

作者与机构:Jin Lab(Intelligent Medical Vision and Robotics,香港理工大学等)

发表来源:MICCAI 2025;arXiv 2505.08581,2025年5月

论文链接:https://www.google.com/url?q=https://arxiv.org/abs/2505.08581&source=gmail&ust=1781619640407000&sa=E | GitHub: https://www.google.com/url?q=https://github.com/jinlab-imvr/ReSurgSAM2&source=gmail&ust=1781619640407000&sa=E

【摘要】

手术视频分割的传统方案依赖密集像素标注,无法支持开放词汇的语义目标指定。ReSurgSAM2提出两阶段框架:①跨模态时空Mamba模型根据自然语言描述(如"追踪右手钳")检测目标,生成精确初始分割;②可信初始帧选择策略自动识别最高置信度起始帧,结合多样性驱动长期记忆机制驱动SAM2进行稳健视频追踪。显著降低追踪漂移------在Ref-EndoVis17(器械)、Ref-EndoVis18(器械/组织)上分别超越次优方法14.17、7.76、3.19个J&F点,提升幅度可观。

【应用场景】

手术视频自动化器械追踪;自然语言引导的机器人手术辅助系统;手术视频标注半自动化平台

【主要方法】

跨模态时空Mamba(文本×视频特征交互)+ 可信初始帧选择策略 + SAM2长期视频追踪 + 多样性驱动记忆更新

【优点】

MICCAI 2025正式发表;J&F绝对提升14.17点领先显著;支持开放词汇目标指定;无需逐帧标注

【缺点与局限】

严重遮挡时追踪可靠性下降;依赖初始帧质量,极端低质量视频(如烟雾干扰)效果待验证;Mamba+SAM2组合实时性受限

【未来可优化方向】

① 扩展至解剖组织的长期追踪(如出血区域动态演变);② 引入不确定性估计主动请求人工纠正;③ 构建手术视频语义参考分割统一基准与评测体系

────────────────────────────────

③ SSL-MedSAM2: A Semi-supervised Medical Image Segmentation Framework Powered by Few-shot Learning of SAM2

【SSL-MedSAM2:SAM2少样本学习驱动的半监督医学图像分割框架】

作者与机构:Zhendi Gong, Xin Chen(诺丁汉大学计算机学院,英国)

发表来源:MICCAI 2025 CARE Challenge;arXiv 2512.11548,2025年12月12日

论文链接:https://www.google.com/url?q=https://arxiv.org/abs/2512.11548&source=gmail&ust=1781619640408000&sa=E

【摘要】

标注稀缺是医学图像分析的核心制约。SSL-MedSAM2构建双分支协同半监督框架:①免训练少样本分支(TFFS-MedSAM2)直接利用预训练SAM2的强零样本能力,基于少量标注样本生成高质量伪标签;②全监督精化分支(FSL-nnUNet)以nnUNet为骨干迭代精化伪标签,两分支相互促进。在MICCAI 2025 CARE-LiSeg肝脏分割挑战赛中,GED4和T1 MRI的平均Dice分别达0.9710和0.9648,Hausdorff距离分别为20.07和21.97,性能领先。

【应用场景】

标注资源匮乏的临床医学图像分割;多中心数据快速适配;肝脏、腹腔器官大规模半监督分割

【主要方法】

SAM2零样本伪标签生成(TFFS-MedSAM2)+ nnUNet迭代精化(FSL-nnUNet);双分支半监督协同框架

【优点】

SAM2伪标签分支无需重训练;双分支互补提升伪标签质量;Dice 0.97+优异成绩;框架简洁,可推广至其他解剖结构

【缺点与局限】

对于高度非典型病变(如不规则形状肿瘤)伪标签质量可能下降;当前仅验证肝脏分割;nnUNet精化分支计算开销不可忽视

【未来可优化方向】

① 扩展至3D体积分割(CT/MRI三维结构);② 与主动学习结合,优先标注最难样本;③ 探索统一伪标签生成策略支持多解剖域联合学习

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

二、具身智能与机器人学习 · 精选论文

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

④ AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis

【AnchorDream:面向具身感知机器人数据合成的视频扩散模型复用】

作者与机构:Junjie Ye, Ruijie Xue, Basile Van Hoorick, Pavel Tokmakov, M. Zubair Irshad, Yue Wang, Vitor Guizilini(南加州大学 / Toyota Research Institute 等)

发表来源:IEEE International Conference on Robotics and Automation (ICRA) 2026;arXiv 2512.11797,2025年12月

论文链接:https://www.google.com/url?q=https://arxiv.org/abs/2512.11797&source=gmail&ust=1781619640408000&sa=E | 项目页: https://www.google.com/url?q=https://junjieye.com/AnchorDream/&source=gmail&ust=1781619640408000&sa=E

【摘要】

机器人学习的核心瓶颈是高质量演示数据的稀缺性。AnchorDream提出利用预训练视频扩散模型生成具身感知的合成机器人演示数据。核心创新是"具身锚定机制":以机器人运动渲染作为扩散条件,在生成过程中锁定机器人形态,防止模型产生运动学上不可行的姿态幻觉,同时保持物体、环境的多样性与视觉真实性。生成的合成数据直接用于模仿学习策略训练,在仿真基准上获得相对36.4%提升,真实机器人测试成功率接近翻倍------展示了视频生成模型作为机器人"想象引擎"的巨大潜力。

【应用场景】

低成本机器人演示数据增广;无需物理环境建模的策略学习;跨场景泛化的合成数据生成

【主要方法】

预训练视频扩散模型 + 机器人运动渲染锚定条件 → 具身感知合成演示数据 → 模仿学习下游策略训练

【优点】

ICRA 2026正式发表;无需物理仿真器;真实机器人接近翻倍提升;锚定机制有效防止运动学幻觉

【缺点与局限】

长序列多步骤任务的生成数据质量待验证;锚定依赖精确机器人运动学模型;数据多样性与物理保真度权衡存在上限

【未来可优化方向】

① 扩展至双臂和仿人机器人的复杂操控数据合成;② 语言条件指定目标任务,实现按需数据生成;③ 与在线强化学习结合构建闭环数据迭代训练

────────────────────────────────

⑤ HEX: Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation

【HEX:面向跨具身全身操控的仿人对齐专家框架】

作者与机构:Shuanghao Bai, Meng Li 等15位作者(北京人形机器人创新中心 / 西安交通大学 / 南开大学 / 北京大学)

发表来源:arXiv 2604.07993,2026年4月9日;目标投递 RSS 2026(待录用确认)

论文链接:https://www.google.com/url?q=https://arxiv.org/abs/2604.07993&source=gmail&ust=1781619640408000&sa=E | GitHub: https://www.google.com/url?q=https://github.com/Open-X-Humanoid/HEX&source=gmail&ust=1781619640408000&sa=E

【摘要】

现有VLA模型对机器人身体各部位独立处理,导致高自由度仿人机器人控制不稳定。HEX构建以状态为中心的全身协调操控框架,核心创新:①仿人对齐通用状态表示------在Tiankong 2.0/3.0、天鹰、宇树G1/H1、AgiBot、Leju等7种仿人机器人间构建异构具身的可扩展共享学习空间;②混合专家统一本体感知预测器(MoE-UPP)------从12M帧多具身轨迹数据建模全身协调与时序运动动态;③轻量级历史token总结历史观测,避免重复图像编码降低推理延迟。在快速反应和长时域操控任务中均达到最优表现。

【应用场景】

全尺寸仿人机器人全身协调操控部署;跨厂商机器人型号零样本策略迁移;高动态任务(如搬运、攀爬)的全身协调控制

【主要方法】

Qwen-VL骨干 + MoE统一本体感知预测器(UPP)+ 流匹配动作头 + 仿人对齐状态表示;7种具身,12M帧数据训练

【优点】

大规模数据(12M帧,7种具身);MoE架构自然支持跨具身泛化;国产仿人机器人全覆盖;项目代码开源

【缺点与局限】

仅支持仿人机器人体系,不兼容非人形机器人(四足、轮式);12M帧训练成本较高;轻量历史token在极长时域任务中的信息损失待评估

【未来可优化方向】

① 扩展到四足和轮式移动操控具身;② 视频提示零样本学习新技能(无需额外训练);③ 与触觉传感器结合增强全身操控的接触力感知

────────────────────────────────

⑥ Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification

【言行一致:通过运行时推理-动作对齐验证引导VLA模型】

作者与机构:Robot Learning Lab(Utah大学等多机构)

发表来源:arXiv 2510.16281,2025年10月(修订2026年1月);目标投递 ICRA 2026(待录用确认)

论文链接:https://www.google.com/url?q=https://arxiv.org/abs/2510.16281&source=gmail&ust=1781619640408000&sa=E

【摘要】

推理型VLA模型(如π0、OpenVLA-OFT)会生成文本规划(Chain-of-Thought),但实际执行的动作与文本规划之间存在系统性不一致------模型"说一套做一套"。本文提出无需额外训练的运行时引导方法:①对VLA模型采样多条候选动作序列;②通过轻量仿真预测每条序列的执行结果;③以预训练VLM对执行结果与文本规划进行语义对齐评分,选择最一致序列执行。该方法零训练成本、即插即用,在多个机器人操控基准上显著提升任务成功率,从根本上降低推理型VLA在部署阶段"言行不一"的风险。

【应用场景】

推理型VLA模型的零成本可靠性提升;无数据环境下的VLA部署改进;长时域多步骤操控任务成功率增强

【主要方法】

运行时候选动作序列采样 + 轻量仿真执行预测 + VLM语义对齐评分(执行结果 vs 文本规划)+ 最优序列选择执行

【优点】

完全免训练(零额外数据成本);对任意推理型VLA模型即插即用;显著提升多基准成功率;算法简洁可解释

【缺点与局限】

多序列采样增加推理时延(不适合高实时性场景);依赖仿真预测精度(真实环境受限);VLM对齐评分存在模型偏差风险

【未来可优化方向】

① 以世界模型替代轻量仿真,降低部署环境依赖;② 与规划树搜索结合实现更鲁棒的长时域对齐;③ 扩展至多机器人协作任务的集体言行一致性保障

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

综述短文 | 用"提示"替代"标注":2026年AI研究中的数据效率革命

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

2026-06-15 | 约 2,100 字

【引言】

AI研究领域长期存在一个结构性悖论:最强大的模型需要最多的数据,而数据恰恰是医学影像和机器人学习中最昂贵的资源。一张精确标注的手术器械分割掩码,可能需要外科医生花费数分钟逐像素勾勒;一条高质量的机器人操控演示,则需要研究人员远程操控机器人数十次。这种"数据饥渴"不是技术问题,而是一道深层的结构性约束。

2026年6月,来自MICCAI 2025、ICRA 2026等顶级会议的六篇论文,正在从不同角度突破这一约束------而且这些解法共享一个令人印象深刻的方法论根基:用"提示"(prompt)和"生成"(generation)替代繁重的"标注"(annotation)与"重训练"(retraining)。

今日六篇论文,三篇来自手术AI(SurgTPGS、ReSurgSAM2、SSL-MedSAM2),三篇来自具身智能(AnchorDream、HEX、Do What You Say),它们合力描绘出一幅清晰的技术图景:数据效率,正在成为2026年最具价值的技术突破方向,而且医学AI和机器人学习两个领域正在走向共同的方法论答案。

相关推荐
H__Rick1 小时前
自动对焦学习-3
人工智能·学习·计算机视觉
SpaceAIGlobal1 小时前
AI 生成 PPT 工具深度评测与选型指南
人工智能·powerpoint
移动云开发者联盟1 小时前
移动云HaishanDB焕新出发!
人工智能
用户1693176172662 小时前
多端复用一套对话逻辑,我抽了个 useChat hook
人工智能
johnny2332 小时前
开源AI助手项目汇总:OpenHuman、nexu、Moltis、Eclaire、ChatClaw、Frona
人工智能
于先生吖2 小时前
SpringBoot对接大模型开发AI命理测算系统:八字排盘与AI解析接口源码全解
人工智能·spring boot·后端
AI创界者2 小时前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
DaLi Yao2 小时前
【无标题】
人工智能·安全