2026.1.6
本文介绍了MICCAI 2022 P2ILF挑战赛,旨在通过评估参赛团队在肝脏2D/3D解剖地标自动分割和预术中3D-2D图像配准方面的表现,推动腹腔镜肝切除术中增强现实技术的发展,并基于结果提出未来研究方向。
Title 题目
01
An objective comparison of methods for augmented reality in laparoscopic liver resection by preoperative-to-intraoperative image fusion from the MICCAI2022 challenge
腹腔镜肝切除术中增强现实预术中图像融合方法的客观比较:来自MICCAI2022挑战赛
文献速递介绍
02
腹腔镜肝切除术是一种微创手术,因其创伤小和住院时间短而日益普及,但由于腹腔空间受限和缺乏触觉反馈,手术难度仍然很高,难以定位肿瘤和血管等内部结构。增强现实(AR)技术通过将术前CT或MR影像重建的3D模型叠加到腹腔镜视图上,有望缓解这一问题,使外科医生能够看到内部结构并据此进行肿瘤切除。目前AR系统有效性的目标配准误差(TRE)应低于1厘米。现有的3D-2D配准方法多依赖手动标记肝脏解剖地标(如肝下缘、镰状韧带、轮廓线)来辅助配准,但这耗时且易引入误差。因此,急需自动化地标分割和配准过程以有效应用AR。P2ILF挑战赛旨在解决在腹腔镜图像和术前3D模型中寻找肝脏解剖地标,并将其用于3D术前到2D腹腔镜图像配准的问题。本研究重点关注3D术前到2D腹腔镜图像的配准,旨在减少用户交互和配准时间,并首次对LLR中AR的配准方法进行客观比较。
Aastract摘要
02
腹腔镜肝切除术(LLR)中的增强现实(AR)是一种可视化模式,通过将术前3D模型投影到腹腔镜图像上,帮助外科医生定位肝脏内嵌的肿瘤和血管。目前,用于3D-2D配准的解剖地标通常需要手动标记,这既耗时又容易出错,因此需要实现自动化。本文介绍了在医学图像计算与计算机辅助干预(MICCAI 2022)会议期间举办的术前-术中腹腔镜融合(P2ILF)挑战赛,旨在探索自动检测这些地标并将其用于配准的可能性。挑战赛分为两个任务:(1) 2D和3D地标分割任务,(2) 3D-2D配准任务。来自4个国家的6个团队参与了挑战赛。所有团队都提出了基于深度学习的2D和3D地标分割方法,以及基于可微分渲染的配准方法。在任务1中,团队能够分割大部分2D地标,而3D地标的分割更具挑战性。在任务2中,只有一个团队获得了可接受的定性和定量配准结果。基于实验结果,本文提出了三项关键假设,指出了该领域当前面临的局限性及未来的研究方向。
Method 方法
03
P2ILF挑战赛提供了由9名患者的167张腹腔镜图像、对应的2D和3D解剖地标、术前3D模型及相机内参组成的训练数据集,以及2名患者的16张图像作为测试数据集。数据收集经过伦理批准并完全匿名化。术前3D模型通过经验丰富的肝胆外科医生手动分割CT/MR图像中的肝脏、肿瘤和腔静脉重建。术中腹腔镜图像和棋盘格图案视频用于估计相机内参。挑战赛分为两项任务:任务1是2D和3D地标分割,其中2D地标包括轮廓、肝下缘和镰状韧带,3D地标包括肝下缘和镰状韧带;任务2是3D术前模型到2D腹腔镜图像的配准。参赛团队使用Docker容器进行算法部署和评估,无法直接访问测试数据。6个团队(BHL、UCL、GRASP、VOR、NCT、VIP)参与了挑战赛,他们普遍采用深度学习进行地标分割(如ResUnet、UNet++、nnUNet、PointNet++、MeshCNN、GCN、Attention UNet)以及可微分渲染进行3D-2D配准。各团队在数据预处理、数据增强、损失函数和初始化策略上有所不同。
Discussion讨论
04
本挑战赛首次提供了全面的腹腔镜AR数据集,包含详细标注的2D/3D解剖地标。挑战表明,术前到术中配准的验证是一个限制性因素,重投影误差虽是有效策略但存在歧义,不能完全替代可靠的3D地标测量目标配准误差。在2D地标分割方面,复杂的模型设计或模型集成(如BHL团队)以及使用合成数据进行训练(如UCL团队)可以提高精度。在3D地标分割方面,所有团队都进行了全局3D地标分割而非按视图分割,并且数据增强对于解决类不平衡问题至关重要,UCL和NCT团队通过模拟技术使用合成网格进行训练,取得了更好的3D地标分割结果。对于3D-2D配准,大多数团队采用可微分渲染。NCT团队表现最佳,这得益于其良好的初始化策略以及结合边缘检测滤波器来识别轮廓的额外约束。当前方法主要进行刚性配准,未能补偿术前术中形变,这限制了其临床应用价值。论文提出了三项关键假设:(I) 肝脏解剖地标分割极具挑战性,复杂模型或模型集成可提高精度,合成数据可改善性能。(II) 3D地标分割需要数据增强来解决类不平衡问题,融合多视图地标可提高3D模型分割性能。(III) 成功的配准需要良好的初始化姿态,且现有刚性配准方法未考虑形变,尚不适用于AR。
Conclusion结论
05
P2ILF挑战赛首次聚焦腹腔镜AR中的2D/3D地标分割与配准问题。参赛团队虽然将2D和3D分割视为独立问题,但通过融合患者多视图标注的3D地标生成了全局3D地标注释。3D地标分割比2D分割更复杂,可能因为3D模型数量较少,需要更深入的研究。未来应考虑使用每个视图可见的3D地标来提高配准精度。可微分渲染结合预测地标在良好初始姿态下能提供连贯结果,但术前到术中形变仍需纳入未来方法中。为了实现临床应用,需要更大的、经过多标注者质量验证的2D和3D标注数据集,并应考虑在保证性能的同时降低推理时间。总而言之,更好的地标分割结合形变补偿将提高3D术前网格到2D腹腔镜图像的配准精度,这对实现精确AR至关重要。
Results结果
06
任务1的2D地标分割评估采用精确率(Precision)、Dice系数(DSC)和对称距离(Symmetric Distance)。BHL团队在总体平均精确率(0.38)和Dice系数(0.32)上表现最佳,尤其在肝下缘和轮廓线分割上。NCT和UCL团队紧随其后。VIP和VOR团队表现不佳。在对称距离方面,NCT团队略优于BHL。总体而言,镰状韧带和轮廓线的预测性能优于肝下缘。任务1的3D地标分割评估采用3D Chamfer距离。UCL团队总体表现最佳,在镰状韧带和肝下缘分割上距离最小。NCT团队在肝下缘分割上距离最小。任务2的3D术前网格到2D腹腔镜图像配准评估采用2D Hausdorff距离(重投影误差)。NCT团队的平均重投影误差最低(393像素),表现最佳。UCL团队位居第二,GRASP团队第三。VIP团队未参与此任务。运行时长方面,UCL团队用时最短(16秒),NCT团队最长(197秒)。定性结果显示,所有团队都能分割2D地标,但BHL和NCT团队的假阳性较少,轮廓线和镰状韧带分割质量较好,肝下缘最具挑战性。3D地标分割中,NCT团队在肝下缘分割成功,但普遍存在假阳性,且多为全局分割而非按视图分割。NCT团队在3D-2D配准方面取得了最佳的定性和定量结果,但模型未能精确贴合肝脏边界。其他团队的配准结果视觉效果不佳,模型姿态不准确或与肝脏距离较远。NCT团队的AR图像与基线方法对比显示,即使其结果最接近真实情况,也存在一定偏差,无法实现完全精确的临床指导。
Figure 图
07

图1.腹腔镜图像与术前3D CT或MR扫描融合。首先使用术前3D扫描重建肝脏边界、肿瘤和对安全手术至关重要的主要血管。在腹腔镜手术过程中,我们使用图像配准将重建的模型(此处为3D网格)叠加到2D肝脏视图上。目的是将3D网格点投影到肝脏边界上,从而能够理解肿瘤和血管的空间位置以及3D模型中匹配的肝脏边界。这种增强现实技术有助于外科医生在手术中定位肿瘤和重要地标。上述结果是使用Koo等人(2017)的半自动方法获得的。

图2.2D和3D解剖地标的描绘。术前3D模型(左)和腹腔镜2D图像(右)中的肝脏解剖地标真值标注。

图3.P2ILF数据集:提供包含原始腹腔镜图像、标注的解剖地标(轮廓线为黄色,肝下缘为红色,镰状韧带为蓝色),以及手动对齐的3D肝脏模型中对应的3D解剖标注(肝下缘为红色,镰状韧带为蓝色)的训练和测试数据样本。该数据集共包含11名患者,其中9名用于训练,2名用于测试。

图4. P2ILF团队挑战赛的提交流程:在Grand Challenge平台上建立了基于Docker容器的提交系统。向挑战参与者提供了每个肝脏模型及其对应的图像以及相机内参。算法提交需要不同的输入,用于预测2D肝脏地标、3D肝脏地标,以及利用这些地标和相机内参将3D模型配准到腹腔镜图像。最后,使用不同的指标评估每个团队算法的输出(更多详情请参阅"评估指标"部分)。

图5.六个团队方法的通用流程。BHL团队:首先对输入的2D图像和3D模型进行预处理和增强。使用两个ResUNet对图像中的2D地标进行分割,使用一个PointNet++对术前3D模型中的3D地标进行分割。为了执行3D术前网格到2D腹腔镜图像的配准,将对应关系输入到PnP算法中,并获得变换矩阵。GRASP团队:使用Mask-RCNN生成肝脏的2D掩模,然后通过可微分渲染最小化轮廓重投影误差来执行3D术前网格到2D腹腔镜图像的配准。NCT团队:分别使用nnUNet和MeshCNN分割2D和3D地标。然后使用可微分渲染,通过最小化先前分割地标的重投影误差来执行术前3D网格到2D腹腔镜图像的配准。UCL团队:使用UNet++分割2D地标,同时使用PointNet++分割3D地标。该团队还使用可微分渲染进行图像配准。VOR团队:2D情况被视为像素分割任务,3D情况被视为顶点分类任务。然后使用可微分渲染,通过由定位网络计算的仿射变换生成2D图像来执行3D术前到2D腹腔镜图像的配准。形状正则化项提供额外监督以避免不希望的网格变形。VIP团队:该团队仅参与了任务1。使用Attention UNet进行腹腔镜图像中肝脏解剖地标的像素分割任务。

图62D地标分割任务的定性结果:第一行显示了两名测试患者的真值(GT)地标,后续行显示了各团队的预测结果。肝下缘地标显示为红色,镰状韧带地标显示为蓝色,轮廓线地标显示为黄色。

图73D地标分割任务的定性结果:第一行显示了两名测试患者的真值(GT)地标,后续行显示了各团队的预测结果。肝下缘地标显示为红色,镰状韧带地标显示为蓝色。

图83D术前网格到2D腹腔镜图像配准任务的定性结果:显示了其中4个参赛团队在部分图像上的配准结果。第一行显示原始图像,随后的行分别显示BHL、GRASP、NCT和UCL团队的结果。由于VOR团队的模型超出视野范围,其结果未显示。可以看出NCT团队取得了最佳结果,其配准模型与图像中的肝脏接近。

图9AR与基线方法的比较:AR图像由任务2的配准结果生成,并与Koo等人(2017)的基线方法进行比较。由于NCT团队取得了如图8所示的一致结果,我们只将其与基线方法进行比较。肿瘤显示为黄色,下腔静脉显示为蓝色。

图10任务1的团队排名:使用Dice相似系数和精确率对2D地标分割任务进行排名。对于3D地标分割任务,我们使用了肝下缘和镰状韧带之间(如果可用)的平均3D Chamfer距离。我们对两个子任务都采用了聚合和排名策略。底部提供了每个团队测试案例比例的排名。

图11任务2的团队排名:分别使用3D-2D配准量化的重投影误差(RPE)进行评估------(a) 针对肝下缘和 (b) 针对镰状韧带。我们对每个子任务都采用了先聚合再排名的策略。底部提供了每个团队测试案例比例的排名。