2026.2.3
本研究提出SafeRPlan,一种结合不确定性感知距离安全过滤器、领域随机化和教师-学生学习的深度强化学习方法,用于实现椎弓根螺钉置入术的术中连续路径规划,显著提升了手术安全性和在部分、噪声数据下的泛化能力,优于传统配准方法。
Title 题目
01
SafeRPlan: Safe deep reinforcement learning for intraoperative planning of pedicle screw placement
SafeRPlan: 用于椎弓根螺钉置入术中规划的安全深度强化学习
文献速递介绍
02
椎弓根螺钉在脊柱融合手术中至关重要,但由于术中视野有限且靠近脊髓、主动脉等重要结构,其安全置入极具挑战。现有的计算机和机器人辅助技术虽然提高了准确性,但多采用基于术前CT扫描的"一次性规划"和术中配准,存在辐射暴露和配准误差的局限性。此外,对于微创手术,还需要从初始位置到目标插入点的完整手术工具轨迹的精确引导。本文旨在开发一种基于超声图像的连续安全路径规划方法,以克服现有方法的挑战,并提出SafeRPlan框架,利用部分脊柱表面超声重建进行机器人钻孔规划,并通过距离安全过滤器和领域随机化技术提升安全性和泛化性。
Aastract摘要
02
脊柱融合手术需要高度精确地植入椎弓根螺钉,这要求在重要结构附近操作且解剖视图有限。虽然机器人辅助系统提高了置入精度,但仍缺乏术中持续更新手术计划的先进机制,这限制了机器人自主性的提升。本文提出一种名为SafeRPlan的安全深度强化学习(DRL)规划方法,用于机器人脊柱手术中椎弓根螺钉置入的持续路径规划。该方法的主要贡献包括:1) 引入不确定性感知距离安全过滤器,确保动作安全;2) 通过在术前图像上预训练神经网络来编码先验解剖知识,补偿不完整的术中解剖信息;3) 利用新颖的领域随机化技术,提高对未知观察噪声的泛化能力。在人体模型数据集上的实验表明,即使在真实的观察噪声下,SafeRPlan的安全性比基线方法高出5%以上。据作者所知,SafeRPlan是首个专为机器人脊柱手术设计的安全感知DRL规划方法。
Method 方法
03
SafeRPlan框架旨在通过超声图像的术中表面重建实现自动、连续、安全的椎弓根螺钉置入术规划。该方法不进行术前和术中数据的刚性配准,而是利用术前数据预训练深度强化学习(DRL)智能体。任务定义为微创机器人椎弓根螺钉置入,假定患者俯卧,可访问背部背面,并使用光学跟踪系统追踪手术工具和超声探头。训练环境通过术前MRI或CT图像构建,将解剖结构分为可穿透软组织、需最小化损伤的软组织、皮质骨、松质骨和禁行区。钻头被建模为3D圆柱体,安全条件包括不进入禁行区和不穿破骨骼。目标是最大化与松质骨的重叠同时保持安全。系统采用状态感知约束马尔可夫决策过程(SCMDP)建模,状态由描述钻头与背侧表面相对位置的3D体素表示,动作包括11种(10种5维钻头运动和1种"保持不动")。成本函数与安全距离相关。奖励函数包括插入深度奖励、损伤长度惩罚、进入不安全区域惩罚和遵循金标准轨迹奖励。SafeRPlan的核心是一个安全DRL智能体,包含一个演员-评论家网络和一个基于距离的安全过滤器(DSF),并采用教师-学生学习技术和领域随机化来提高泛化能力。DSF通过预测与不安全状态的距离来过滤实时动作,确保安全行为。教师-学生学习则利用来自地面真实(GT)脊柱表面的教师智能体来指导学生智能体的训练,使其能从随机合成超声重建(RsUS)状态中学习。
Discussion讨论
04
当前的术中规划框架,即使基于超声重建,仍多为"一次性规划",未能解决连续路径规划和安全性问题,且大多数现有手术路径规划方法未处理术中数据的高维度和部分可观察性。本文提出的SafeRPlan框架通过集成不确定性感知距离安全过滤器、新颖的领域随机化技术和教师-学生学习,成功实现了基于部分、噪声和高维输入的椎弓根螺钉置入术中安全、无辐射和连续路径规划。验证结果显示,SafeRPlan比"一次性规划"方法实现了高出5%以上的安全率,并且不确定性感知DSF在面对不熟悉的解剖结构时也能保证99%的安全率。领域随机化技术有效解决了部分可观察性和重建误差问题。该方法的闭环决策能力也使其有望应用于实时反馈的机器人手术系统。然而,研究仍存在局限性,例如数据集规模相对有限,泛化能力在解剖变异方面仍有提升空间,以及当前环境主要侧重运动学仿真,未来需考虑动力学仿真和软组织形变。此外,传感器噪声和动力学方面的仿真与现实差距,以及高效逼真的合成超声生成,是未来进一步研究的重点。
Conclusion结论
05
本研究提出了SafeRPlan,这是首个用于脊柱骨科手术术中规划的安全深度强化学习智能体。该方法设计了一个特定的基于距离的安全过滤器,并开发了合成表面重建方法来训练DRL智能体进行术中规划。通过对高保真人体模型数据集以及相应的合成和真实术中超声重建数据集的验证,SafeRPlan在生成比刚性配准技术更可接受的术中规划方面展现了巨大潜力。通过解决部分观测、领域偏移和安全性的挑战,本方法为更高自动化水平的术中决策和机器人手术奠定了基础。
Results结果
06
究使用ITIS虚拟人群、水模型和真实人体数据集进行评估。训练性能显示,PPO算法相比A2C更稳定,教师-学生(TS)学习显著提高了训练速度和最终性能。在合成术中超声(IUS)重建数据集验证中,SafeRPlan集成方法(PPO+SF+DR+TS)实现了98%-100%的安全率和超过0.9的插入比,优于其他DRL变体和基于配准的方法,后者虽然插入比略高但安全率较低。SafeRPlan在特定不安全场景(穿透率、风险率和GR分类)中也表现最佳。在水模型超声重建数据集上的验证显示,该方法在未经观察领域随机化的情况下,仍能以99%的安全率和大于0.75的插入比泛化到未见解剖结构。真实志愿者数据集的验证进一步证实了SafeRPlan对真实超声重建的泛化能力,GR分类低于B的比例达到99%,插入比超过0.8。定性评估显示,外科医生对规划轨迹总体满意,合成和水模型数据集中没有不可接受的病例,真实数据集中仅有极低比例的轨迹被认为不可接受,尽管部分轨迹因保守性导致插入深度略短。敏感性分析表明,更高的安全滤波器参数d和λ能提高安全率但会降低插入比,而政策对钻头初始姿态在大部分范围内表现出高鲁棒性。
Figure 图
07

图1. 我们提出的SafeRPlan框架概述。在术前训练期间,我们利用分割后的术前MRI数据构建了一个带有随机合成超声重建(RsUS)的训练仿真环境,以训练安全强化学习(RL)智能体。在手术期间,我们假设在手术前首先进行机器人超声(Li等人,2023b)的背侧表面重建。然后,经过训练的智能体直接使用这种术中超声重建来规划运动指令序列,以钻孔后续椎弓根螺钉置入(PSP)的路径。手术工具的实时姿态通过光学跟踪系统进行跟踪,并用于更新智能体的状态输入。

图2. 基于表面重建的配准技术规划框架。(a) 从分割的术前图像中提取的解剖结构;(b) 骨模型(绿色)和术前规划(黄色圆柱体);(c) 提取的表面特征和规划;(d) 术中机器人超声扫描;(e) 从分割的术中数据重建的表面(黄色点),叠加在患者真实解剖结构上;(f) 配准和真实世界中生成的规划轨迹(黄色圆柱体);(g) 机器人钻孔或引导的规划;(h) 噪声表面重建可能导致不可接受规划的示例;尽管配准误差可能很低,但估计的轨迹(黄色圆柱体)与脊髓重叠,这是不安全的。

图3. 椎弓根螺钉置入术(PSP)的训练仿真环境。(a) 仿真环境和领域随机化;(b) 3D图像状态的构建。Vfree、Vpreserve、Vcort、Vcanc和Vno分别用橙色、粉色、浅灰色、深灰色和红色着色。来自真实超声重建数据的潜在效应(由橙色圆圈突出显示)用于生成随机扰动的合成超声重建(RsUS)。3D图像状态基于RsUS创建,仅包含3个标签:钻头(蓝色)、重建(绿色)和空(黄色)。

图4. 随机选择表面区域添加观测扰动。多边形中心(红色)首先从GT表面点云(绿色)中随机采样。然后,在Y-Z平面中随机采样2D生成向量(蓝色箭头,{hij}j=1Ji),作为超平面(紫色线,hijT(p-pic)=‖hij‖2)的法线,以构建Y-Z平面中的凸集。Y-Z坐标在凸集内(橙色,{p:Hi(p-pic)≤bi})的点是被选定施加扰动的区域。

图5. 评估椎弓根螺钉置入术(PSP)性能的相关术语。插入深度(bt)、金标准、损伤长度(mtdam)和安全距离(ltsafe)分别用蓝色、绿色、橙色和红色可视化。此处金标准由轨迹中心(p̄center)、方向(v̄drct)、椎弓根宽度(PW)和轨迹长度决定的圆柱体表示。

图6. 带有随机扰动3D图像状态的安全强化学习的教师-学生学习。我们的安全深度强化学习智能体包含一个演员-评论家网络和一个基于学习的安全过滤器,两者都带有3D卷积神经网络(CNN)特征编码器。安全过滤器在策略部署期间预测到不安全状态的距离以确保安全行为。在第一阶段,我们在使用地面真实(GT)椎骨上表面构建状态的仿真中训练一个教师智能体。然后在第二阶段,我们训练一个学生智能体,基于随机合成超声重建(RsUS)进行规划。为了提高训练性能,我们使用教师智能体的特征编码器来指导学生智能体的特征提取。

图7. 真实志愿者数据集样本和领域随机化的有效性。(a) 用于训练和验证的第一组真实人体数据集示例。(b) 专门用于验证的第二组真实人体数据集示例。仅选择具有足够表面重建的椎骨用于实验目的。骨表面重建和分割的骨骼CT分别用绿色和灰色着色。(c) 领域随机化有效性的演示。对于所示的两个示例椎骨,我们可以在100次随机试验中生成一个具有与真实重建(real)相似点分布的合成重建(DR)。

图8. 我们方法的训练和验证流程。(a): 针对未知观测噪声泛化的训练和验证流程。红色箭头表示为每个人体模型训练RL策略的流程。绿色箭头说明了如何基于未知重建构建相应验证环境的流程。对于验证环境,重建与GT骨模型对齐。(b): 针对未知患者泛化的训练和验证流程。红色箭头表示为所有人体模型训练RL策略的流程。黄色箭头显示了基于未知US和CT数据集的验证流程。在验证环境中,真实US重建被着色为绿色。

图9. 实验的训练曲线。(a)-(e): ITIS虚拟人群中每个单独人体模型的训练曲线。(f): 学习所有5个人体模型(来自整个ITIS基础数据集)的策略训练曲线。实线和虚线分别表示有和没有观测领域随机化(DR)的训练。因此,虚线黄色曲线的最终值应是实线曲线的上限。线条显示指标的指数移动平均值,阴影表示相应的方差。

图10. 我们任务中不可接受的情景。(a) 损害安全关键解剖结构。(b) 穿透椎骨。(c) 过多部分穿透到侧向软组织。超出椎弓根区域最宽的部分用黄色表示,用于Gertzbein-Robbins (GR) 分类。此指标仅用于验证。

图11. 不同方法在5个人体模型数据集上的IR和SR值的散点图。我们的方法(蓝色星形)以足够的插入比实现了最高的安全率。

图12. 脊柱手术专家外科医生对脊柱手术定性评估结果。(a): 合成超声重建规划轨迹的定性评估结果。(b): 真实水模型数据集规划轨迹的定性评估结果。

图13. 专家脊柱外科医生对真实志愿者数据集结果的定性评估结果。(a): 第1组规划轨迹的定性评估结果。(b): 第2组规划轨迹的定性评估结果。

图14. 每种方法在不同重建质量椎骨上的性能。(a) 第一组数据集的插入率,SafeRPlan + DR + SF + TS、DR + SF 和 SF 的平均安全率分别为 99%、96% 和 92%。(b) 使用在第一组上训练的策略在第二组数据集上的插入率,平均安全率分别为 88%、92% 和 71%。对于每种方法,使用线性回归来说明性能与重建质量之间的相关性。

图15. 5个人体模型数据集安全过滤器的平均敏感性分析。(a) 不同λ和d下的安全率(SR)。(b) 不同λ和d下的插入比(IR)。

图16. 训练策略轨迹性能对初始位置的敏感性分析示例。不同3D初始位置的安全率(SR)和插入比(IR)值分别在纵向和冠状平面上进行说明。每个像素处的标量值是如果钻头在该像素位置初始化,规划轨迹的性能(IR或SR)(对于IR,解剖结构被省略)。

图17. 使用合成和真实超声重建数据,由我们策略规划的示例轨迹的前视图和侧视图。选择不同椎骨水平、初始姿态和人体模型的规划轨迹,以展示我们方法的有效性。合成术中超声重建(IUS)呈黄色,真实超声重建呈绿色。前两行中,椎骨内部的绿色区域表示人类规划师标注的金标准(GS)轨迹。

图18. 领域随机化和教师-学生学习的消融研究。(a): 训练对区域减少率的敏感性;(b): 训练对区域增加的敏感性。(c), (d): 训练对区域高度变化的敏感性;(e): 训练对点云密度的敏感性,通过随机保留一定比例的点来控制;(f): 训练对特征损失权重的敏感性。

图19. 奖励权重的消融研究。(a), (d): 不安全惩罚 (w3);(b), (e): 损伤长度惩罚 (w2);(c), (f): 遵循金标准奖励 (w4)。对于损伤长度,奖励权重 w2 的影响与其他权重相比不显著,除了过大的权重也会阻止智能体探索。这可能是因为较小的 w2 已经促使智能体直接钻入软组织。

图20. 最大动作对数、价值函数和不安全区域预测距离的CNN显著图。(a) 带有椎骨表面重建和钻头的3D图像状态。(b) 最大动作对数的CNN显著图。(c) 价值函数的CNN显著图。(d) 不安全区域预测距离的CNN显著图。骨骼表面周围区域的梯度范数高于其他图像位置。

图21. 我们的策略为真实志愿者数据集规划的示例轨迹的前视图和侧视图。第一行是使用在同一组上训练的策略为第一组规划的结果。第二行是使用相同策略为第二组规划的结果。