2026.1.12
本文提出DACG模型,通过双重注意力模块增强医学图像特征提取,并利用上下文引导模块监督长文本生成,有效缓解视觉与文本数据偏差及长文本生成难题,在IU X-ray和MIMIC-CXR数据集上取得了最先进的放射学报告自动生成性能。
Title 题目
01
DACG: Dual Attention and Context Guidance model for radiology report generation
DACG:用于放射学报告生成的双重注意力和上下文引导模型
文献速递介绍
02
放射学报告生成对经验丰富的放射科医生而言耗时费力,因此自动生成放射学报告作为辅助工具受到了广泛关注。现有方法多沿用图像标注模块,通过预训练CNN提取图像特征,再利用循环或非循环神经网络生成报告。然而,仍面临两大挑战:一是长文本生成困难,因为放射学报告需详细描述正常和异常特征;二是视觉和文本数据偏差,即医学图像中异常区域占比小,导致模型倾向于描述正常区域。为克服这些问题,本文提出DACG模型。该模型采用双重注意力模块(DAM)捕获图像精细的位置和通道特征以解决视觉数据偏差,并使用上下文引导模块(CGM)将上下文信息融入解码器,指导长文本生成,缓解文本数据偏差问题。实验表明,该模型在IU X-ray和MIMIC-CXR数据集上取得了先进性能。主要贡献包括:在Transformer编码器前使用DAM增强医学图像特征提取能力;通过CGM在解码器中提供文本生成范式,并集成到CNL中指导文本生成;首次将双重注意力模块应用于放射学报告生成任务。
Aastract摘要
02
医学影像是放射科医生撰写报告和后续临床治疗的关键基础。自动生成放射学报告旨在减轻临床医生的工作负担,已成为研究热点。然而,医学领域存在严重的视觉和文本数据偏差问题,即异常区域仅占医学图像的一小部分,且报告多描述正常发现;同时,生成更长、更准确的描述性文本仍具挑战。本文提出一种新颖的双重注意力和上下文引导(DACG)模型,以缓解数据偏差并促进长文本生成。该模型采用双重注意力模块(包含位置注意力块和通道注意力块)从医学图像中提取更精细的位置和通道特征,增强编码器图像特征提取能力。同时,引入上下文引导模块将上下文信息融入解码器,并监督长文本的生成。实验结果表明,DACG模型在IU X-ray和MIMIC-CXR数据集上取得了最先进的性能,并通过更准确的异常检测和更详细的描述提升了报告质量。
Method 方法
03
DACG模型主要由四个核心部分组成:视觉特征提取器、双重注意力模块(DAM)、引导记忆生成器和上下文驱动归一化层(CNL)。首先,使用预训练的ResNet-101作为视觉特征提取器,提取医学图像的块特征。双重注意力模块(DAM)集成在Transformer层之前,用于从位置和通道两个层面重建并细化医学图像特征,实现更精细和准确的全局特征提取。DAM包含位置注意力块(PAB),用于捕获图像中任意两个位置间的空间依赖性;以及通道注意力块(CAB),用于增强通道维度特征,两者融合后输出。上下文引导模块(CGM)旨在生成语义连贯且信息丰富的描述,包含一个引导记忆生成器(GM Generator),该生成器记录并持续更新上下文信息,并通过残差连接和门控机制避免梯度问题。上下文引导归一化层(CNL)替换了Transformer中的标准归一化层,将引导记忆(GMt)融入其缩放和偏置参数中,为解码器提供文本特征引导,从而提升长文本生成能力。编码器以DAM输出为输入,解码器则结合文本特征和编码器生成的隐藏状态,通过CNL进行词汇预测以生成报告。
Discussion讨论
04
实验数据分析揭示了DACG模型的优势及其与现有方法的区别。相较于传统图像标注模型,DACG通过双重注意力模块(DAM)充分提取医学图像特征,并通过上下文引导模块(CGM)在生成长文本报告方面展现出显著优势。与直接融合视觉和文本信息(如COATT)可能引入噪声的方法不同,DACG在解码器中通过文本模式引导报告生成之前,在位置和通道维度上增强视觉模态特征,有效避免了噪声引入。此外,DACG无需人工构建外部医疗知识图谱(如HRGR、JPG、PPKED),避免了构建的繁琐性及其在不同模型间的泛化难题,并超越了这些方法的性能。与通过搜索最相似图像来增强视觉特征(如CA)可能引入冗余信息的方法相比,DACG直接从输入图像的位置和通道两个方面重建和增强视觉特征,避免了冗余信息。虽然某些模型(如R2GenRL)采用强化学习直接优化指标,但DACG以更直接的方法取得了更好的结果。总而言之,DACG通过编码器有效增强视觉特征,并在解码器中提供有价值的上下文引导,从而显著提升了模型性能。然而,论文也指出了局限性:未来的工作可以探索更多样化的医学图像特征提取视角,不仅限于位置和通道,并研究更有效的特征融合方法。此外,当前的引导记忆(GM)对每个实体的信息不够具体,未来可考虑将与不同器官相关的描述性文本分类存储在GM中,以提供更具体的文本生成指导。
Conclusion结论
05
本文提出了用于自动生成放射学报告的双重注意力和上下文引导(DACG)模型,旨在解决放射学报告生成中的两大常见问题:视觉和文本数据偏差,以及长文本生成困难。模型中的双重注意力块(DAB)通过从位置和通道维度捕捉更细微、更准确的视觉特征信息,显著增强了医学图像特征提取能力,优于传统CNN。引导记忆(GM)用于存储特定实体描述信息,并在训练过程中持续更新上下文信息的完整性,然后将其集成到上下文引导归一化层(CNL)中,以监督报告生成。广泛的实验结果表明,DACG模型在公开标准数据集上取得了最先进的性能。一系列的消融实验和超参数实验进一步证明了DACG模型中各个模块的协同效应以及超参数设置的合理性。
Results结果
06
DACG模型在IU X-ray和MIMIC-CXR两个广泛使用的医学影像数据集上进行了评估。模型性能通过自然语言生成(NLG)指标(BLEU1-4、ROUGE-L、CIDEr、METEOR)和临床效率(CE)指标(基于CheXpert标签的精确率、召回率、F1分数)进行衡量。实验结果表明,DACG模型在这两个数据集上均取得了最先进的性能。例如,在IU X-ray数据集上,DACG在BLEU-1、BLEU-2、BLEU-3、BLEU-4和ROUGE-L等指标上相比次优模型MAN有显著提升。对MIMIC-CXR数据集也观察到类似的优越表现。消融实验在IU X-ray数据集上验证了DACG各模块的有效性:BASE+DAM相比BASE模型有显著改进,表明双重注意力模块(DAM)在增强视觉特征提取方面的有效性;BASE+CGM也优于BASE模型,证实了上下文引导模块(CGM)在指导长文本生成中的重要性。DACG模型结合DAM和CGM,取得了最佳的整体性能。报告长度分析显示,CGM的引入直接导致了报告长度的增加,使其更接近真实报告的平均长度。超参数分析表明,引导记忆(GM)的行数H=3时模型表现最佳,能在提供足够上下文信息与避免冗余之间取得平衡。案例研究进一步验证了DACG的临床效率和实用性,其生成的报告包含了几乎所有必要的临床词汇,且获得了专业放射科医生的认可,有助于显著减轻报告撰写负担,提高效率。
Figure 图
07

图1. 包含两张胸部X射线图像及相应报告的示例。

图2. DACG的整体架构。视觉特征提取器、编码器和解码器显示为灰色虚线框。双重注意力模块、GM生成器和上下文驱动归一化层(CNL)显示为带有蓝色虚线的实心灰色框。

图3. CNL的示意图。

图4. IU X-ray测试集上BASE、BASE+CGM、BASE+DAM和DACG以及真实报告的平均长度。

图5. H值变化对BLEU-4分数的影响。

图6. DACG、BASE+DAM和BASE+CGM在三个样本上生成的报告以及真实报告示例。为了更好地突出报告中的差异,不同颜色突出显示了不同的医学术语。