基于BERT的医学影像报告语料库构建

大模型时代，任何行业，任何企业的数据治理未来将会以"语料库"的自动化构建为基石。因此这一系列精选的论文还是围绕在语料库的建设以及自动化的构建。

通读该系列的文章，犹如八仙过海，百花齐放。非结构的提取无外乎关注于非结构化的对象以及对象之间的关系，进而提炼为架构化的数据进行治理。目前优质的基座模型甚多，如何准备微调的语料库样本库（如何标注）以及如何设计标注的结构则十分关键，好的设计将使得微调过的模型能够快速学会自动化标注。

在医学诊断与治疗过程中，影像学扮演着至关重要的角色。无论是揭示肿瘤病变、追踪神经系统状况、评估心血管功能，还是解析肌肉骨骼问题，放射科医师通过解读复杂且非结构化的医学影像，为临床决策提供关键信息。这些信息通常以详尽的放射学报告形式呈现，但其自由叙事的特性使得它们在进行二次利用时，如回顾性分析或临床决策支持系统构建，面临着结构化转化的挑战。如今，这一难题正因一项创新研究而得到突破性进展，本篇论文将创建了"Corpus of Annotated Medical Imaging Reports（CAMIR）"的独特资源，首次将精细事件结构与概念标准化巧妙融合，革新了医学影像报告的处理方式。

方法论

**数据集：**论文使用了一个现有的包含2007年至2020年间来自华盛顿大学医学系统四个医院的普通患者群体的临床数据库，其中包括1,417,586份CT报告、541,388份MRI报告和39,150份PET-CT报告。从每种成像模态中随机抽取报告：CT报告203份、MRI报告202份、PET-CT报告204份。这些报告使用神经去标识符自动进行了去标识化处理。

**标注模式：**CAMIR事件模式中，每个事件包括一个标识事件的触发器和描述事件的参数。下图展示了在整个注解过程中使用的BRAT快速注解工具的注解示例。

**标注方式：**四位医学生对CAMIR进行了标注。两两组队对357份报告进行了双重标注，另有252份报告由相同的标注员进行了单次标注。经过五轮双重标注后，标注员的水平达到了一致的交互式一致性评价（IAA）标准，随后进行了4轮单次标注。数据集中训练集、验证集和测试集的比例为70%:10%:20%。训练集中有41%为双重标注，整个验证集和测试集均为双重标注，以确保评估的可靠性。双重标注报告平均每份包含2.65±0.48个指征触发器、10.15±1.31个医学问题触发器和9.77±0.99个病变触发器，而单次标注报告平均每份包含2.14±0.26个指征触发器、9.91±2.58个医学问题触发器和8.78±1.06个病变触发器。

信息提取（IE）提取框架： 为了提取CAMIR事件，研究团队考察了两种基于BERT的语言模型：（1）mSpERT和（2）增强版的PL-Marker，PL-Marker++。对于这两套系统，研究团队把事件分解为包含实体和关系的一个组，其中关系头是触发器，关系尾是参数。

mSpERT

上图显示了mSpERT架构，包括各种主体类型、主体子类型和关系输出层。这种尝试较为直接，直接使用BERT联合提取主体和关系。

输出层通过外接Adapter负责分类跨度识别以及多标签之间的关系预测。研究团队因此也利用它来预测子类型标签，mSpERT输出的最终结果可以生成CAMIR预先定义的事件结构，进而完成数据自动化的抽取。

PL-Marker++

PL-Marker是一个多阶段提取框架，第一阶段识别各种主体信息，第二阶段解析关系。为了提取CAMIR事件，研究团队引入了PL-Marker的增强版PL-Marker++。唯一的区别在于第三个分类阶段，用于带值子类型的标签。上图展示了PL-Marker++架构，其中实体类型和关系阶段与原始PL-Marker模型相同。

看到这里会比较烧脑，大白话的解释就是C阶段就是传统的PL-marker框架，主要是提取每一段文字的各种主体信息（含开始和结束位置）、主体之间的关系。因为这样的操作是并行计算，速度和效率可以得到保障。

而B阶段就是所谓的第三分类阶段，进一步将C阶段的成果再次通过Bert基座识别出对应实体的额外信息。这个过程主要是C阶段提炼的每一个实体对象插入标识符生成新的输入。再讲这个输入利用Bert CLS标记的隐藏状态输入外挂分类器，进而识别出每个主体的二级子类。最终一段文本被自动化的标注为结构化的语料库。

标注结果

|---------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| | 左图给出了双重标注报告的一致性（IAA）数据。对双重标注报告中的所有触发器和参数进行评估，总体一致性得分为0.762 F1。对于触发器标注的一致性更高，指示（Indication）、病变（Lesion）和医学问题（Medical Problem）分别为0.856、0.805和0.854 F1。尺寸（Size）、尺寸趋势（Size Trend）和计数（Count）参数出现频率远低于其他参数，从而导致这些参数的一致性得分较低。特征（Characteristic）参数的语义非常多样，导致频繁的假阴性结果。 |

CAMIR中标注现象的分布情况。虽然成像方式的关注点可能有所不同，但大多数参数类型的标注在各成像方式间的分布相似。

两种框架的效果对比

从上图看，PL-Marker++相对于mSpERT取得了显著更高的整体性能（0.759 F1 对比 0.736 F1）。尽管mSpERT和PL-Marker++模型在提取指示和医学问题触发器和参数方面的表现相似，但PL-Marker++在提取病变触发器和除一种参数类型外的所有参数方面表现出色。PL-Marker++模型在提取病变事件的特征、尺寸和尺寸趋势参数方面分别获得了+∆0.05 F1的提升。PL-Marker++整体性能的提高可归因于通过BERT模型的所有层注入触发器和参数位置信息。

总结

CAMIR语料库凭借其独特的事件结构与概念标准化结合的设计，连接了高度专业的放射学语言与机器学习算法。使海量非结构化的影像报告得以转化为结构化数据，为科研人员、临床医生及医疗软件开发者提供了宝贵的研究素材与开发资源。