闭环文本引导框架，用于肺癌病灶分割与定量

论文总结

1、有匿名版本开源代码：Anonymized Repository - Anonymous GitHub

2、双阶段分割流程 ：先利用 Grounding DINO 将文本描述（如报告语句）映射为候选边界框，再通过 SEEM 将框细化为像素级病灶掩膜。

3、不确定性感知特征调制器（UAFM）：在图像分支中自适应增强边界模糊区域的特征表示，提升分割精度。

4、伪文本生成与闭环微调：将预测掩膜转换为几何描述（体积、肺占比、质心等），再生成结构化伪报告文本，用于重新微调 Grounding DINO，从而在缺少真实报告的数据集上实现弱监督学习。

5、输出结构化报告：生成符合 TID 1500 标准的量化测量报告，便于临床使用。

摘要

肺癌发生诊断依赖于早期发现和准确的病灶划分，但传统的分段方法在临床上仍保持脱离，产生的扫描仪敏感像素遮罩与放射科医生的语言或报告标准不符。为解决这一局限，我们提出了BiomedLoop，一种文本引导框架，将语义描述与空间量化结合，以模拟常规诊断实践。我们的流水线通过微调的接地DINO定位与SEEM细化相结合，SEEM通过新型不确定性感知特征调制器增强，确保边界敏感表示。一项核心创新是将掩模衍生的几何描述符转换为结构化伪文本提示，以微调定位通路，使得即使数据集没有原生放射报告也能进行监督。此外，系统还输出符合TID 1500规范的结构化报告。五个公开基准测试的广泛实验表明，BiomedLoop相较于传统CNN架构和Segment Anything模型变体，能够实现更高的Dice相似度系数和持续降低的豪斯多夫距离。综合来看，这些结果表明，系统化语义空间关节建模成功弥合了传统分割与资源有限环境中临床实用性之间的关键脱节。

引言

在资源有限的环境中，如冲突区、偏远地区和经济弱势地区，放射学专业能力的系统性短缺和影像基础设施不足仍然是及时癌症治疗的持续障碍，尤其是在中低收入国家（LMICs）1,2。在过去十年中，便携式和移动成像平台改善了对关键诊断方式的现场接入，尤其是CT和部分项目中的PET/CT------从而减少了固定扫描仪无法使用或负担过重时的跨机构转移延迟3。然而，仅靠硬件可用性并不能解决核心瓶颈：没有受过培训的人员，快速、可靠的复杂研究解读往往难以实现，而低中收入国家的劳动力缺口仍持续限制吞吐量和质量4。在肺癌中，风险尤为高，延迟发现可能失去治疗窗口;全球范围内，肺癌仍是癌症死亡的主要原因（近180万人死亡;~占所有癌症死亡的18--19%），这凸显了在不牺牲准确性的情况下，需要实现诊断吞吐量的解决方案5--7。在过去十年中，自动医学图像分割已从卷积U形网络发展为自配置框架，标准化预处理、架构选择和训练，建立了强大的多数据集基线8,9。然而，由于扫描仪厂商、采集协议和异质病灶表型等领域转移，性能常常下降------这些在多中心和资源有限的部署中普遍存在10,11。尽管有针对性的领域泛化策略，模型仍常需要任务或现场的重新训练，以维持不同模式和机构间的可靠性，限制了可扩展性11--13。

近期的细分基础模型承诺实现更广泛的转移，但跨中心的强健分布行为仍是一个临床部署未解决的问题14。更关键的是，传统分割仍局限于像素级遮罩，这使得建立一致的放射学术语、测量标准和决策阈值的映射变得困难15,16。与文本引导细分相比，它在生成可重复使用的结构化证据以及支持报告和审计方面存在不足，且在监督较弱的场景下难以实现可扩展性17,18，从而脱离实际诊断工作流程。大规模预训练的出现改变了分割的计算方式。Segment Anything（SAM）将高容量ViT编码器与提示交互结合，并在自然图像中实现广泛传输19。然而，医学影像领域的独立评估报告零/少镜头行为混合：在高度限定、高对比度目标上性能具有竞争力，但在细微、低对比度或模糊边界时性能下降，反映持续的领域和外观差距19--22。MedSAM通过对百万级、多模态的医学语料库进行预训练，缩小了部分差距，并展现出强劲的跨数据集迁移能力14，但对于资源不足的部署仍有两个显著限制：（i）最先进的SAM骨干的计算占用超过6亿参数，且推断时占用内存;（ii）设计和调整提示的需求给临床诊断带来了额外负担，限制临床价值。19--21。这些观察激励了轻量化、迅速高效的适应和医学基础的预训练，以在资源匮乏环境中实现强有力的实用性14。除了纯视觉之外，文本引导切割还将语义描述与空间预测对齐，使临床医生能够利用报告风格的短语或关键词来引导模型。提示视觉语言组件为这种映射提供了基础设施：Grounding DINO 通过视觉语言检测对文本指向区域进行定位23，而 Segment Everything All All At Once（SEEM）则提供跨点、框、涂鸦、掩码和文本的通用多提示界面24。原则上，组合这些能力支持从"语义描述"到"空间量化"的临床自然循环。在实际操作中，仍有两个差距：（i）医学数据集很少提供对齐的三元组（文本、框框、掩模），阻碍了尺度上的监督文本到区域学习25--27;以及（ii）图像-文本关联很少以符合指南的测量或临床系统可消费的结构化报告内容的形式出现，限制了临床可追溯性和使用28--30。我们通过一条闭环流水线解决了这些空白，该流水线将文本条件化本地化与框提示分割和显式几何量化结合起来，名为BiomedLoop。如图1所示，具体来说，文本提示通过Grounding DINO（Grounding DINO Fine-Tuning，GDF）23映射到候选边界框;SEEM 通过通用多提示界面（SEEM Fine-Tuning，SF）将这些盒子细化为像素级遮罩24。所得掩码被转换为几何描述符，如病灶体积、病灶与肺的比率和重心，这些内容被渲染为符合结构化报告实践并符合临床定量标准的结构化伪报告提示15,31。这些伪提示与其原始框和掩码配对，以微调文本到框模块：伪文本微调（PTF），可在无原生报告的数据集上学习，同时保持文本引导行为;这种循环类似于半/弱监督的"伪标记"机制，适应了视觉语言的基础化32,33。总之，当（文本、图像、掩码）三元组稀缺时，该循环实现了实用的监督路径，减少了对劳动密集型报告流水线的依赖，同时保持了可提示接口的完整23,24。BiomedLoop的独特之处在于它自动从自身输出（伪文本）中合成文本提示，并利用这些提示在闭环中改进分割，消除了手动干预的需求，并提供了比少量点提示更丰富的指导。这比静态文本引导基线和SAM一次性提示更精确地界定和量化病灶，正如我们的结果所示。更具体地说，一个核心技术贡献是不确定性感知特征调制器（UncertaintyAware Feature Modulator，UAFM），该模块引入图像分支，明确适应病灶与边界之间的模糊性。UAFM不对所有空间位置应用统一变换，而是计算空间不确定性映射，并为不确定区域分配更高的表示能力，同时保持信心区的计算轻松。该设计与证据一致，即对像素不确定性（偶然性与认识性）建模能提升对噪声观察和分布外效果的鲁棒性（28,34--36）。它还补充可提示分割：Grounding DINO 的框限制搜索空间;SEE提供面具精细;UAFM稳定了标注噪声或低对比度可能降低性能的边界，符合边界/距离感知目标，从而减少较大的边界误差23,24,37,38。在后续培训中，流水线的几何描述符作为伪文本生成的锚点，紧密地对齐提示语义与病灶几何的对齐，同时保持与医学分割中使用的不确定性引导学习范式的兼容性39--41。此外，影像AI的临床应用依赖于与原始图像的高度相关性和标准化的机器可读输出42。为此，使用分段对象将像素级掩模重新投影到源CT帧内的原始图像像素网格上。结合基于结构化报告TID 1500定量测量标准生成的空间坐标项，该过程进一步形成初步诊断报告，显著提升临床诊断效率。我们从导出图层的 PixelSpacing、ImageOrientationPatient 和 ImagePositionPatient 提取毫米比例和患者坐标。这确保了口罩和测量在原始网格和患者坐标系统中的一致性和可重复性，满足PACS和报告系统互操作性要求。总之，我们采用了针对现实世界约束量身定制的方法：（i）利用可提示的视觉语言本地化（Grounding DINO）和通用分割（SEEM）来连接语言与空间;（ii）用几何结构闭合监督循环，通过文本发送伪提示，克服报告对齐标签的稀缺，生成结构化的诊断和治疗报告;以及（iii）引入UAFM以处理边界不确定性，同时避免计算成本增加。综合来看，这些结果表明BiomedLoop通过统一语义与几何（语义-空间关节建模）、将测量转化为监督（闭环自监督学习）以及提供可追踪、系统可消耗的输出（标准化报告生成）来弥合传统肺癌分割与临床实践之间的脱节。

结果

训练和实施细节

我们在ReXGroundingCT的全面监督下，调整了文本引导定位和提示分割组件。GDF（Grounding DINO 微调）经过训练，能够将报告样式提示映射到框上，使用标准的 DETR 风格目标，并配合匈牙利语匹配（L1 + GIoU 用于本地化，并使用查询-文本相似性的对比项）23。SF（SEEM 微调）利用其通用多提示符接口将方框精炼成像素精确的遮罩24。由于两者均为二维工作，每个三维CT均被切片;对于每个注释病灶，我们选择最大横截面积（通常为K=3）周围的顶部K轴向切片，以稳定一对一的提示掩蔽监督。为提供解剖背景，轻量肺面罩分支（预训练并推断时冻结）提供实质先验，这一做法与常见的胸部CT预处理和情境建模相契合。我们用AdamW（权重衰减0.05）43微调12--15个epoch，余弦衰减时5%热化44;检测/分割头的学习率为1×10⁻⁻¹，部分解冻主干（最后块+投影层）为5×10⁻⁻⁻。CLIP文本编码器初始化文本嵌入，并保持冻结状态，除了LayerNorms以稳定收敛45。8--16个2D切片的迷你批次在四块A100 80GB GPU上以混合精度（AMP）46训练。使用验证骰提前停止。肺-PET-CT-DX为CT/PET-CT提供放射科医生包边框，但尚无报告47。我们应用SF从方框生成病灶掩模，并计算几何描述符（体积、病灶与肺的比例、中心点）。描述符被渲染成伪报告提示，形成合成的三元组（文本、框框、掩码）。随后我们运行PTF（伪文本微调）以适应弱监督下的GDF：6--8个纪元，头部学习率降低（5×10−5;骨干冻结），混合批次，将肺-PET-CT-Dx中60-70%伪文本三元组与30--40%的真实文本掩码对交错，遵循半/弱监督课程，减少合成文本过拟合同时保持提示性23,32。对于GDF，我们遵循Grounding DINO：匈牙利语匹配，采用L1 + GoU框损和图像查询与text23的语言基础对比损失。对于SF，分割目标结合了Dice + IoU（Jaccard），以平衡区域重叠和边界质量;当盒子初始化掩码时，一个小的盒一致性项会将掩码保持在提示区域内。我们还增加了几何一致性惩罚，将预测的掩码导出体积与伪文本数字对齐，促进语义提示与空间量化的一致性（符合临床强调体积学而非纯重叠）31。所有CT体积均重新采样至1毫米各向同性间距，强度转换为Hounsfield单位，并截断至肺窗范围（空气到软组织），与常见的胸部CT流程一致9。增强效果包括随机裁剪/翻转、轻微弹性变形和强度抖动。对于文本提示，我们采用轻度词汇增补（同义词/副短语变体），同时保持临床语义不变。我们报告Dice和IoU用于掩膜质量和病灶级回忆以提升检测敏感性，遵循分段指标的标准指导48。模型选择使用最佳验证骰。所有实验都使用 PyTorch 2.2 和 AMP46。

评估指标

我们使用三个标准指标评估了分割性能：骰子相似度系数（DSC）、并交（IoU）和95%豪斯多夫距离（95HD），这些指标共同量化了预测掩码与参考注释之间的体积重叠和边界准确性。此外，我们还报告病灶级回忆，以测量检测小结节的敏感性。对于基线模型，我们呈现测试集上最佳的平均骰子和IoU，而对于我们的方法，我们报告了五次独立运行中的平均和标准差，并使用不同的随机种子，以反映准确性和稳定性。我们还报告提示-遮罩一致性，定义为提示区域（输入框或前一文本到框预测）与预测遮罩边界框之间的IoU;没有提示隐含区域的方法报告为N/A。该指标按切片计算并在测试集中平均。

数据集

我们使用ReXGroundingCT建立文本与区域比对，并使用Lung-PET-CT-Dx（TCIA）进行跨数据集转移和伪文本生成47,49。为全面评估（见表1），我们纳入了五个公开基准：LCTSC 201750、NLSTseg51、NSCLC放射基因组学（TCIA）52、MSD-Lung（医学分段十项全能，Task06）53和PCLT20K54

基线实现与公平协议

为确保严谨透明的比较，我们建立了统一评估环境（CEE），所有模型在相同条件下进行评估，以将架构性能与系统差异隔离开来。具体来说，所有实验均在一组四块NVIDIA A100（80GB）GPU上进行，采用混合精度（AMP）技术优化吞吐量，所有输入量通过重新采样至1.0毫米各向同性间距和强度归一化至肺窗范围进行标准化。关于训练协议，传统基线如nnU-Net采用自配置框架，而我们的BiomedLoop和预训练变体采用了12--15个纪元的特定微调计划，以确保域适配且不发生灾难性遗忘。我们在ReXGroundingCT训练集上严格执行患者层级拆分，并对外部基准测试如LungPET-CT-Dx和LCTSC进行了跨数据集转移评估。此外，对于像MedSAM这样的提示引导基线，我们采用了边界框提示，以确保与文本到盒子和框到掩码流程的公平对比，采用所有方法中一致的切片选择和评估指标。

二维基线比较结果

除非另有说明，我们采用Lung-PET-CT-Dx的二维切片评估方案，报告三项指标与表2一致：骰子（越大越好）、HD95（毫米为单位）（越低越好）和提示与区域的一致性（输入提示框与预测掩码推断框之间的IoU）。 ReXGroundingCT 专门用于训练文本到区域对齐;Lung-PET-CT-Dx用于跨数据集适应，是所有基线的主要测试集。传统分割模型在不使用提示的情况下进行评估（一致性不适用），而提示族（基于SAM和文本引导）则根据其各自的提示类型（点/框/文本）进行评估，完全符合表2。常规（无提示）基线范围为Dice 0.76--0.84，HD95为118--148毫米;最强的参赛项目是nnU-Net（2D配置）（0.84±0.04,119±25毫米）和UNet3+/SegFormer-B2，约0.82±0.05骰子。在SAM家族中，诱发变异集中于骰子0.80--0.82，HD95~116--125毫米，稠度为0.74--0.77;其中MedSAM和SAMMed2D竞争最激烈。在文本引导方法中，SegVol（Text+Box）、SAT、BiomedParse 和 MedCLIP-SAMv2 得到 Dice ~0.80--0.83，HD95 122--130 mm，Consistency 0.75--0.79。我们的方法（2D）在Dice 0.88 ± 0.03、HD95 96 ± 24毫米和Consistency 0.83 ± 0.04下实现了最佳整体性能，这不仅提升了体积重叠和边界精度，还使预期提示与最终分割范围之间的对齐更加紧密。指标遵循医学图像分割中的常见做法（重叠时用骰子;HD95用于边界距离;简直±性病报告）。Dice和Hausdorff指标在细分基准测试中的标准使用已被广泛记录;参见参考文献。55,56.

跨数据集结果

我们报告了涵盖5个数据集的跨数据集比较，包括LCTSC 2017、NLSTseg、NSCLC放射基因组学、MSD肺和PCLT20K（PET+CT），风格如表3所示。我们的方法在五个数据集上实现了最佳或并列最佳骰子，同时保持了最低或接近最低的HD。在NLSTseg上，实现的Dice与数据集中公布的二维U-Net参考水平高度一致（训练IoU ≈ 0.95，相当于Dice ≈ 0.97），表明该流水线在大规模LDCT队列中保持准确性，同时增加了提示性和计算效率。传统的二维CNN基线在数据集中形成了强有力的中高频带。nnU-Net、UNet3+ 和 ResUNet++ 的 Dice 稳定在 0.82--0.91 区间，LungPET-CT-Dx、LCTSC 的 HD 值在 94 到 150 之间。基于提示的SAM模型在相对同质的队列如LCTSC和NLSTseg上显示出明显优势，但在肺-PET-CT-Dx和PCLT20K上表现不及，因为病灶异质性和PET-CT融合带来了更大的变异性。MedSAM和SAM2在点提示或框提示下，骰子得分通常在0.86--0.92之间，HD在90--130分区间。对于PCLT20K（605名患者，21,930张PET-CT配对图像），结果也遵循这一趋势，凸显了多模态分割任务的难度增加。在NSCLC放射基因组学中，虽然有肿瘤掩膜，但任务定义不同，我们的Dice得分高于典型单中心检测实现，并与最近的多中心放射基因组分割工作一致。我们注意到该数据集上的绝对值对预处理管道和拆分协议敏感。总的来说，比较突出了三个一致的发现：( i )传统的CNN骨干仍然具有竞争力，但通常会导致更高的计算成本；( ii ) SAM变体受益于提示，在更干净的数据集上表现良好，但在异质或多模态目标上的优势减弱；并且( iii )我们的方法在Dice精度，HD稳定性和效率之间取得了最有利的平衡，支持其在更广泛的临床部署(为了得到更直观的结果,请参见图2)的潜力。

Lung-PET-CT-Dx的消融研究

为了评估每个成分的贡献，我们在Lung - PET蛳CT - Dx测试集上进行了消融实验，以Dice相似性系数( DSC )和95 % Hausdorff距离( HD95 )作为主要评估。量表(表4 )。基线配置直接集成了Grounding DINO和SEEM，而没有任何特定领域的适配，产生了次优的结果( 0。52 ± 0 . 05 )。07DSC , 152 ± 35HD95 )。这表明，当使用现成的预训练模型时，很难推广到肺部CT领域。通过引入接地DINO ( Grounding DINO，GDF )的微调，显著改善了文本框对齐，使得DSC ( 0。68 ± 0 . 05 )。05)的性能提升超过15 %，HD95 ( 112 ± 24 )的性能显著降低。这证实了将检测器适应于肺部特定的空间模式对于可靠的边界框定位至关重要。随后的SEEM ( SF )微调进一步增强了盒子到掩膜的映射，产生了0 . 79 ± 0 . 04Dsc和104 ± 22Hd95。

可视化分析

我们进一步在LCTSC 2017、NLSTseg、NSCLC辐射基因组学、MSD Lung和PCLT20K数据集上进行了定性评估，定量结果汇总于表3。结果表明，与SOTA相比，我们提出的框架一致地获得了更高的Dice系数，同时产生了更低的Hausdorff距离( HD )，强调了其在勾画病灶边界方面的卓越准确性。虽然基于SAM的方法在选定的数据集上取得了有竞争力的Dice分数，但其预测经常受到边界泄露的影响，特别是当病灶靠近血管结构或胸膜表面时。相比之下，我们的框架整合了文本提示以更精确地定位候选区域，并使用SEEM中的不确定性感知适配器来细化模糊区域。这种设计产生的面具不仅更忠实于事实真相，而且更具有临床可解释性。重要的是，这些增益是通过与轻量级基线相当的参数计数和FLOP来实现的，从而避免了基于扩散或严重工程结构的典型计算负担。具有代表性的例子如图3所示。通过可视化比较发现，U - Net和nn U - Net经常低分段或省略部分肿瘤，而Med SAM实现了更广泛的覆盖，但产生了不精确的边界对齐。相比之下，我们的方法始终如一地生成与标注轮廓紧密贴合的掩模，特别是在小结节或低对比度病变的情况下。这些定性的发现证实了Dice和HD95的定量改进，突出了我们设计的独特优势：精确的、快速引导的边界敏感性，在不影响效率的情况下，支持跨异构和未见领域的鲁棒性能。

讨论

本研究介绍了一种新的文本引导的肺癌病灶分割范式，将自由文本描述无缝地融入到分割工作流程中。与传统方法需要手工交互(如涂鸦或点击)不同，我们的方法利用放射学报告中的语义信息来驱动自动化的病灶定位和边界划定。通过在对齐的文本-掩码数据集上联合微调接地和分割模型，并通过几何到文本循环和伪提示生成进一步将这种能力扩展到无报告域，所提出的管道显示了很强的准确性和实际适应性。研究结果证实，整合文本和影像特征不仅可行，而且有效，可以实现更精确和更稳健的病灶量化。这些发现突出了文本引导分割在推动肺癌影像分析超越单纯图像方法的潜力。与先前的研究相比，我们的工作定位在语言-视觉建模和医学CT分析的交叉点上。先前的研究表明，大规模的预训练模型如CLIP可以有效地融合图像和文本表示，改善风险分层和多模态特征学习等任务。最近的研究，例如，使用CLIP将CT成像与病理报告相结合，用于肺癌风险预测。然而，这些方法主要在分类或预后级别上操作，侧重于全局表示，而像素级别的病灶分割受到的关注较少。我们的贡献在于将自由文本引导引入到肺癌病灶分割中，这是一个文本-图像三元组稀缺且病灶勾画具有内在挑战性的领域。通过结合Grounding DINO进行文本到框的定位和SEEM进行框到掩码的精化，我们建立了一个两阶段，文本驱动的分割流水线。结合跨模态联合微调，该框架比传统的基于CNN的模型和近期基础模型的直接适应获得了更高的分割精度。更重要的是，该方法在包括NLSTseg，NSCLC辐射基因组学，MSD Lung和PCLT20K在内的多个外部数据集上保持了强大的性能，突出了其跨领域泛化能力。与现有的文本辅助分割工作相比- -其中大部分集中在皮肤科、眼科或内窥镜- -我们的研究提供了证据，即自由文本指导在胸部CT中同样有益，但在复杂的解剖结构和细微的病灶边界方面带来了更大的挑战。消融实验证实，单独使用SEEM，当直接对文本进行条件化时，往往会产生模糊或不完整的分割，而结合DINO的边界框约束，显著提高了目标召回率和掩码准确率。这一发现表明，一个两级的文本掩码流水线可以更好地适应肺部成像的复杂性。此外，我们的几何一致性和伪提示再训练实验表明，即使在只有边界框的弱标注场景中，性能也可以接近完全监督训练的性能，同时超越了单纯依赖检测线索的方法。这与最近倡导几何意识自我训练的趋势一致，但据我们所知，这是第一次这样的策略得到了应用和验证。在肺癌CT分割中。针对语言变异的鲁棒性测试也表明，我们的模型获得了比基线更低的误报率，突出了其语义对齐的稳定性。总而言之，我们的研究不仅遵循而且扩展了医学人工智能中语言和视觉融合的更广阔趋势。通过提高任务粒度(像素级分割)、疾病域(肺癌)和数据集多样性(跨域验证)，我们证明了自由文本引导的分割在肺肿瘤学中的可行性和有效性，对可解释和临床可用的成像AI具有潜在的影响。从临床角度来看，所提出的文本引导的分割框架与胸部放射学的日常工作流程紧密结合。在目前的实践中，放射科医生通常在叙述性报告中描述肺部病变，并在必要时手工勾画肿瘤边界，以便进行治疗计划或随访。通过直接将报告级描述转化为病灶掩膜，我们的方法有可能大幅减少手动轮廓绘制所需的时间和精力。这种自动化不仅提高了效率，而且最大限度地减少了观察者之间的差异，从而提高了不同医生之间划定的一致性。此外，将分割与几何量化相耦合的闭环设计提供了进一步的临床价值。自动导出的测量值- -如病灶体积、病灶-肺比率和质心定位- -可以集成到结构化报告中，从而实现可重复性和客观的疾病负担评估。这些特征与常规的临床任务直接相关，包括肿瘤分期、治疗反应的监测以及RECIST等标准化指标的计算。通过生成类似临床报告的伪文本提示，该系统还提供了可解释且易于放射科医生验证的输出，弥合了算法预测和人类可读解释之间的鸿沟。展望未来，文本引导的分割可能在放疗计划中发挥关键作用，其中精确的靶区勾画至关重要，以及在纵向随访中，自动化和标准化的体积测量支持对疾病进展或消退的可靠跟踪。更广泛地说，将语言和影像整合在一个统一的管道中，为可解释的AI工具提供了基础，可以促进临床医生和计算系统之间更紧密的合作，从而推进数字医学的实践。BiomedLoop专注于标准化和精细化诊断，为医疗资源充裕但治疗工作流程繁琐、数据整合困难的场景提供解决方案。这种差异化定位提示未来肺癌影像AI的临床转化可以建立分层协作模式。基层医疗机构使用轻量级模型进行初筛和病灶定位，三级医院使用BiomedLoop进行精准分割、标准化报告生成和多中心数据整合。这创造了一个全面的AI辅助系统，横跨从筛查和诊断到后续护理的整个连续体。本研究的一些局限性应该得到承认。首先，尽管提出的流水线在多个公共数据集上进行了广泛的评估，但部分验证依赖于合成文本-掩码对齐和伪文本生成。需要进一步考虑计算效率和系统集成，包括近实时地处理大量扫描的能力以及与医院信息系统的无缝互操作性。基于这些局限性，对未来研究的几种途径进行了展望。首先，在包含放射学报告和专家病灶注释的真实世界临床数据集上进一步验证，对于评估多中心、多设备条件下的鲁棒性至关重要。其次，融入更强大的特定领域的视觉-语言基础模型可能会丰富文本输入的表示，使系统能够解释更复杂和多样化的临床描述。第三，在临床环境中进行用户研究，对于评估系统对放射科医生工作流程、诊断效率和观察者间一致性的影响至关重要。这种整合不仅有助于评估技术的准确性，而且有助于评估实践中的可用性和可信赖性。最后，将所提出的文本引导的分割范式扩展到肺癌以外的其他疾病类型和成像模式，将进一步验证其通用性，并建立其在数字医学中的更广泛的相关性。

方法

概述

我们构建了一个闭环的文本到量化管道，将文本条件化定位→框提示分割→几何量化→伪文本生成→微调联系起来。该循环能够在没有本地报告的数据集上进行学习，同时保留文本引导的行为。我们的流程包括：( 1 )接地DINO微调( Grounding DINO Fine- Tuning，GDF )将报告风格短语映射到置信度为23的边界框候选。( 2 ) SEEM Fine-Tuning ( SF )通过一个通用的、多提示的界面(点/框/涂鸦/面具/文本)将方框细化为像素精确的病灶掩模( 24 )。 ( 3 )几何量化将面具转换为结构化描述符- -病灶体积、病灶与肺比值和质心- -与临床量化实践( RECIST和容量分析)一致，并可用于结构化报告31。( 4 )拟文本微调( Text Fine-Tuning，PTF )将描述符渲染成模板化的伪报告提示，并与它们的始发框/掩码配对，在弱监督32，33下将文本进一步更新为框模块。我们在ReXGgroundingCT上使用GDF和SF，它提供了与自由文字描述相链接的成对放射学发现和像素级别的3D胸部CT分割。由于GDF和SF均为二维运算，因此将每个CT体分解为轴向切片；对于每个已注释的病灶，我们通过将3D注释与每个切片相交来导出切片级盒和掩膜，在没有任何切片选择启发式49的情况下，为每个含有病灶的切片产生一个(文本、盒子、面具)三元组。该阶段在完全监督下建立稳健的文本→方框和方框→掩码映射。在体积定量之前，沿轴向维度将切片预测的掩模利用其原始的空间排序重新组合成一个连贯的3D病灶体积。第二阶段：肺转移PET蛳CT - Dx (无报告)。我们将改编后的模型移植到Lung - PET蛳CT - Dx中，Lung - PET蛳CT - Dx提供了PET / CT或CT plus XML包围盒，但没有报告47。 SF由边界框生成病斑掩膜；面罩被量化为体积，病变与肺的比率和质心；这些被重新组合成报告式伪提示。生成的伪文本/框/掩码三元组在弱监督下支持PTF，能够在(文字、图像、面具)三元组稀缺时进行学习。课程与批次。为了减少对合成文本的过拟合，PTF在每个小批量内将Lung - PET蛳CT - Dx的伪文本三元组与ReXGgroundingCT的真实文本-掩码对混合。该课程在保持可提示的下游使用界面的同时，收紧了语义-空间对齐。产出。流水线产生( i )用于空间决策的边界框和像素级掩码，( ii )用于语义可解释性的结构化描述符和报告风格伪提示，并直接集成到结构化报告工作流中。

微调真实Dino

虽然SEEM原则上可以直接从文本中生成掩码，但在存在多病灶或描述模糊的场景中很脆弱。Grounding DINO的引入增加了一个粗定位阶段，将搜索空间约束在包围盒上，从而减少了歧义性。包围盒还可以作为几何中间体，实现下游量化和伪文本生成。这两个阶段的"文本→方框→掩码"设计反映了临床工作流程，放射科医生首先对病灶进行粗略定位，然后勾画精确的边界。为了使接地DINO适应肺部CT，我们采用了选择性微调策略。早期的骨架层被冻结，以保留通用的视觉特征；插入轻量级适配器以吸收从自然图像到肺部CT的域偏移；交叉注意力层与检测头(查询解码器和盒子预测器)一起进行微调；并且，在后期，顶端的一个或两个主干块被逐步解冻，以加强域适应。检测目标结合了分类和回归项以及一个接地对比项。

其中，Lcls为目标查询的焦点损失，Lreg遵循L1和GIoU的DETR风格组合进行框定位，Lcon在联合嵌入空间中对齐匹配的文本框对。匈牙利匹配用于将预测分配给基本真值框提示；不匹配的预测被视为负值。训练遵循分阶段的时间表：我们首先以保守的学习率微调适配器和检测头；随后，对选定的高层骨干块进行解冻，以进行渐进式适配。这平衡了预训练知识的保留和有针对性的领域迁移到医学CT，为下游的SEEM分割提供了可靠的文本到框预测。

SEEM微调用于提示掩膜分割

在我们的流程中，SEEM (把一切处处都分割在一起)作为可提示的分割模块，将边界框提示映射到像素级别的病灶掩膜。在ReXGgroundingCT上微调SEEM，为肺癌分割提供对齐的文本-掩码对。对于每个已注释的病灶，将ground - truth mask MGT转换为其紧致的、轴对齐的边界框BGT = ( x1 , y1 , x2 , y2)。训练时，SEEM接收2D CT切片I 2 RH × W及相应的方框提示。盒子坐标由可学习的编码器嵌入，

图4 | SEEM管道中LGA内的不确定性感知特征调制器( UAFM )。SEEM编码器沿用了原始的LGA特征融合模块( FFM )：通过双交叉注意力( q / k / v , LayerNorm , Text MLP)对齐并行的图像/文本分支。在图像分支中，UAFM将Norm + ViT - MLP替换为不确定感知两路投影仪：一个轻量级MLP和一个重量级MLP，其输出由空间不确定性图U混合以分配模糊病灶边界附近的容量。文本分支和提示编码器不变为(为清晰起见省略)。在微调过程中，只更新UAFM块和掩码解码器，而图像和文本编码器都保持冻结(冻结编码器机制)。轻量级重建模块(未详细说明)将潜在/样本特征映射回ViT令牌网格，用于维度对齐，并与编码器特征融合。该设计在保持LGA跨模态耦合的同时，以最小的可训练参数提高边界鲁棒性。

不确定感知特征调制器

在原始的语言引导适配器( Language-guided Adapter，LGA )中，特征融合模块( Feature Fusion Module，FFM )包含并行的图像和文本分支。每个分支使用层归一化，然后使用ViT风格的MLP，两个流通过双交叉注意力块耦合。虽然该设计对一般的语言-视觉融合是有效的，但它在图像平面上应用了一种统一的变换。在医学成像中，病灶边界本质上是模糊的，并且注释具有观察者间的可变性，使得在不确定边缘附近的均匀变换是次优的。结构如图4所示。因此，我们将图像分支中的Norm + ViT - MLP块仅替换为一个不确定性感知的特点调制器( UAFM )块，而文本分支保持不变。在给定融合图像特征Fv的情况下，通过随机Dropout集成或特征方差代理估计空间不确定性映射U∈ $0、1$ H × W，然后进行归一化。UAFM通过两个预测执行条件路由，而不是单个MLP：Flight 1 / 4 MLPlight Fv Þ；重1 ? Mlp heavy ? f Þ；δ10Þ，根据估计的不确定度进行容量调整：Fev 1⁄41U Þ Flight α ω U重；δ11Þ，其中⊙表示逐元素乘法。光路在置信区域保持效率，而重路在高不确定性边界附近分配额外的建模能力。两个MLP都采用了ViT风格的设计，以保持与预训练编码器的架构兼容性。在推断时，估计的不确定性映射U调节图像分支中的特征容量分配，使模糊病灶边界处具有额外的建模能力，同时在置信区域保持效率。通过将变化限制在图像分支，UAFM保持文本表示的稳定性，同时自适应地将视觉特征塑造为不确定性的函数，而不是由两个独立的模块组成。在微调(选择性冻结编码器的微调)的过程中，我们只更新UAFM块和掩码解码器，同时冻结文本和图像编码器。这保留了LGA融合方案的优点，并明确地考虑了病灶分割中的边界不确定性。

采用真实Dino进行联合微调

在模块适应之后，我们进行第二阶段的联合比对，将文本与方框和方框与掩码路径进行耦合。在这一阶段，.骨干特征提取器保持冻结，而交叉注意力层、提示嵌入和任务特定的头被联合微调。设bB是由Grounding DINO预测的边界框，BdMb Þ是由SEEM的概率掩码推断的边界框。我们引入一个交叉模块一致性损失：Lcross 1 / 4 λcross SmoothL1 Δ B Δ Mb Þ；Bb Þ：12 Þ总目标集成了检测、分割和一致性项：L 1 ü λ detLdet α λ maskLmask α λ consLcons α λ crossLcross；其中，Ldet为接地DINO损失(焦点分类、L1 + GIoU的DETR式方框回归和一个接地对比项)，Lmask为Dice + BCE分段损失，Lcons在SEEM中执行提示-掩码框一致性。

基于几何量化的伪文本生成

由于Lung - PET-CT - Dx数据集只提供了带有粗略病变标注的影像学数据，而缺乏放射学报告，我们设计了一种基于几何的模板生成过程来构建与病变掩膜对齐的伪文本提示。该过程能够创建适用于训练文本引导分割模型的文本图像-掩码三元组。获得病灶掩膜后Mb ? ? x；y；在ReXGroundingCT上微调SEEM的Z Þ，我们进行了体积定量。给定体素间距Δ x × Δy × Δz，病灶体积定义为。

质心坐标可以映射到肺叶分割掩模或解剖图谱，从而推断病灶的解剖区域。最后，将这些几何描述符重组成结构化的自然语言模板。例如，一个体积比R = 0的病灶。8 %，质心位于右肺上叶，描述为：'右肺上叶有一个结节，约占0。8 %，质心在切片坐标( x = 120 , y = 85 , z = 42) '附近。通过该过程，Lung - PET蛳CT - Dx中所有病例均自动生成伪报告提示，生成合成文本图像-掩码三联体。这些伪文本完全来源于几何计算和模板规则，而不是原始的。临床报道。这种增强有效地丰富了缺乏文本标注的数据集，实现了对文本引导分割管道的弱监督微调。此外，我们在推理流水线的末端添加了标准化的输出层：首先，基于DICOM头部信息提供的图像几何和患者坐标系，重建原始体素网格和坐标映射；重投影将网络生成的分割结果使用最近邻插值到原生图像的维度和切片数，并将其编码为DICOM分割( Segmentation IOD )。

针对肺癌域重新微调真实DINO

在Lung-PET-CT-Dx数据集上生成基于模板的伪文本后，我们进一步微调了Grounding DINO，以提升其在肺癌病灶文本到框定位的准确性。考虑到自然图像与胸椎CT之间的语义和尺度分布差距巨大，以及灾难性遗忘的风险，我们采用了受近期基于LoRA的医学影像微调启发的领域适应策略。实际上，视觉骨干和文本编码器保持冻结，低阶适配器插入跨模态融合模块和解码器以实现轻量级参数调整，检测头（分类和包围盒回归器）保持完全可训练，以便直接优化肺部区域定位任务。训练样本由CT切片、伪报告提示和来自SEM掩码的目标边界框构建;为考虑合成文本固有噪声，每个样本根据对应掩码质量赋予置信权重WI，该指标通过掩膜盒IoU、连通性和边界平滑度等指标测量，并相应对每样本损耗进行尺度调整。预测fBbig与地面真实盒{Bj}使用匈牙利匹配法匹配，检测损耗定义为

并α和β加权几何和对比贡献。训练分为两个阶段：在预热阶段，仅使用高置信样本（wi > wthresh ）来更新适配器和检测头，其他模块保持冻结;第二阶段，置信度阈值逐渐降低以允许中等质量样本，解码器的上层及必要时的顶层骨干块部分解冻以增强域适应性。为稳定优化并减少过拟合，我们应用了学习率热身、梯度裁剪、丢弃正则化和硬负挖掘，惩罚那些没有对应目标但仍获得高预测分数的提示。经过微调后，基于Grounding DINO在伪提示下推断新CT切片的边界框，并通过计算IoUðbboxðMb Þ;bBÞ，过滤掉低IoU检测结果，进一步验证了对SEEM输出的预测。这一改进显著提升了包围盒平均精度，减少了重心误差，并提高了肺癌领域的整体定位精度。