AI在医学领域：大模型改善放疗后死亡率预测

关键词：大型语言模型、电子健康记录、数据结构化、放疗、生存预测

放疗（RT）是癌症治疗的重要组成部分，根据2023年放射肿瘤学病例率报告，大约60%的癌症患者在治疗过程中会接受RT。SEER数据库的预测显示，到2020年RT患者的数量将上升至338万，到2030年将达到417万。RT的好处，如症状缓解和生存率提高，已有充分记录，但受肿瘤类型、治疗部位和患者健康状况等因素的影响。然而，一些患者可能活不到足够长的时间来从RT中获益，这使得准确选择患者变得至关重要，以避免不必要的治疗、负担和医疗成本。

原有的方法通过关注短期死亡率因素或开发预后列线图来预测RT患者的生存结果，在准确预测生存期方面常常不足，限制了它们在临床决策中的实用性。机器学习的出现使得使用电子健康记录（EHR）数据来探索RT患者的生存预测成为可能，主要是使用结构化数据，如患者的人口统计学、生命体征和实验室结果。然而，这种方法忽略了非结构化临床笔记中的关键信息，例如疾病范围、治疗目的和患者状况。手工结构化这些非结构化数据在大规模上是不切实际的。

大型语言模型（LLMs），如OpenAI的ChatGPT，已经展示了在处理非结构化文本方面的显著能力。这些模型可以使用少次学习执行新任务，无需明确训练，即可实现数据结构化，预示着生成性人工智能模型的新时代。它们的灵活性和适应性，特别是在使用结构良好的提示时，使它们成为结构化临床记录的理想选择。

++++本++++ ++++文++++ ++++开发++++ ++++的++++ ++++模型，通过利用大型中心的患者记录中的全面结构化和非结构化数据来预测RT后的死亡率。++++ 使用可以由内部医院资源部署的开源LLM，确保了数据隐私，而不会冒着患者信息泄露的风险。

1 方法

1.1 研究设计

数据收集自2013年8月至2023年7月在延世癌症中心接受RT治疗的患者。在51,821名接受治疗的患者中，有34,276名被纳入LLM结构化分析，25,183名被纳入生存预测分析。如果患者（1）缺少放疗肿瘤学记录，妨碍了LLM结构化数据的能力；或（2）无法通过国家保险系统确认RT后的存活情况，则被排除在外。随机保留了20%的数据用于测试，独特患者标识符没有重叠；其余用于训练和验证。

1.2 数据收集

1.2.1 结构化数据

年龄、身高、体重、BMI、生命体征、血常规、血生化等。
仅包括所有患者普遍可用的检测结果，排除癌症特异性肿瘤标志物。

1.2.2 非结构化数据

文本格式的医疗记录和影像报告。
包括放疗科咨询当天的转诊原因、病史、临床摘要、治疗计划。
包括与咨询日期最接近的影像学检查报告（PET-CT、胸部CT、腹部CT、MRI、胸部和腹部X光片）。

1.2.3 生存时间计算：从放疗开始日期到国家保险登记系统确认的死亡日期。

1.3 RT-Surv 框架

(A) 传统方法：在传统方法中，模型开发要么只使用结构化数据，要么依赖于人类专家将非结构化数据结构化。这里的结构化数据指的是可以直接用于模型开发的数据，如患者的人口统计信息、生命体征和实验室结果。非结构化数据，如临床笔记和影像报告，通常需要专业人员手动处理和分析，这在大规模数据集上是不切实际的。

(B) RT-Surv框架：与此相对，RT-Surv框架利用开源的大型语言模型（LLM）自动结构化非结构化数据，并将这些数据与结构化数据结合，用于预测模型的开发。这种方法允许模型利用更全面的患者信息，包括从临床笔记和影像报告中提取的关键临床信息，从而可能提高预测的准确性和临床决策的质量。

1.3.1 LLM结构化模块

使用开源预训练LLM（如Meta的LLaMA-3模型）对非结构化EHR数据进行结构化。通过单次学习方式，LLM学习如何将文本数据分类到预定义的类别中，例如：

一般情况：良好、轻微问题、中等问题、严重问题
原发肿瘤病理分类：上皮起源、间充质起源、淋巴造血起源、神经内分泌起源、CNS起源、其他
当前疾病范围：无病生存、微小残留病、中等残留病、广泛转移
整体疾病控制趋势：完全缓解、部分缓解、稳定、进展
放疗目的：根治性/术后、挽救性、姑息性、其他
既往放疗史：是、否、不可评估
放疗紧急程度：非紧急、轻微紧急、中度紧急、紧急

1.3.2 预测模型模块

将LLM结构化的临床特征与结构化EHR数据相结合，开发生存预测模型。采用三种预测模型：

Cox比例风险模型（Cox PH）：统计学方法。
随机生存森林模型（RSF）：机器学习方法。
DeepSurv模型：深度学习方法。

1.3.3 使用专家精心制作的提示

采用单次射击学习方法，让LLM通过将EHR中的数据结构化，对患者的（1）一般情况、（2）原发肿瘤的病理分类、（3）当前疾病范围、（4）整体疾病控制趋势、（5）RT的目的、（6）同一部位之前RT的历史以及（7）RT的紧迫性进行分类。数据结构化过程基于包括转诊原因、病史、临床总结、治疗计划和最近的影像报告在内的全面的放射肿瘤学记录。

1.3.4 框架优势

提高预测准确性： LLM可以有效地结构化非结构化数据，提取更多有用的临床信息，从而提高预测模型的准确性。
提高模型可解释性： LLM结构化的临床特征更具临床意义，可以帮助医生更好地理解模型的预测结果。
降低数据结构化成本： LLM可以自动进行数据结构化，避免了人工结构化数据所需的时间和成本。
保护患者隐私：使用开源预训练LLM可以在内部医院资源上进行部署，避免了患者信息泄露的风险。

2 实验

2.1 评估对象

20名患者的EHR数据，涵盖了不同的放疗场景和患者状况。
这些数据包含了足够的非结构化信息，可以进行准确的LLM结构化。

2.2 评估方法

2.2.1 临床专家评估

由两位放射肿瘤科医生独立评估LLM结构化临床特征的准确性。
每位医生都具有超过五年的临床经验，来自不同的医疗机构。
评估采用二元评分（0=错误，1=正确）。

2.2.2 评估类别

评估七个类别：一般情况、原发肿瘤病理分类、当前疾病范围、整体疾病控制趋势、放疗目的、既往放疗史、放疗紧急程度。

2.2.3 评估过程

两位医生分别对LLM结构化的每个类别进行评估，并记录每个类别的得分。如果两位医生的评估结果不一致，则通过讨论达成一致意见。

2.2.4 准确性计算

计算每个类别的平均准确率。
计算所有类别的平均准确率。

2.3 评估结果

2.3.1 LLM结构化准确性

++++开源LLM（如LLaMA-3-70B）在结构化非结构化EHR数据方面表现出色，平均准确率达到87.5%。++++
与特定领域医学LLM（如Med-LLaMA）相比，开源LLM的准确性更高。
模型参数量越大，结构化准确性越高。
LLM在提取一些关键临床特征方面表现出色，例如：

原发肿瘤病理分类：准确率达到100.0%

当前疾病范围：准确率达到92.5%

整体疾病控制趋势：准确率达到94.9%

放疗目的：准确率达到92.6%

LLM在评估患者一般情况方面准确性较低，这可能是由于缺乏直接临床访谈信息。
利用开源预训练LLM对非结构化EHR数据进行结构化。

2.3.2 预测模型性能

将LLM结构化的临床特征纳入预测模型可以显著提高模型性能。
三种预测模型的C指数、IBS和NBLL指标均得到显著改善。例如，DeepSurv模型的C指数从0.737提高到0.820，IBS从0.183降低到0.131，NBLL从0.546降低到0.409。
不同模型在生存预测性能方面的比较

生存预测性能在仅使用结构化数据（红色）和同时使用结构化及非结构化数据（蓝色）的模型间进行了比较。模型评估包括了Cox比例风险（Cox PH）、随机生存森林（RSF）以及DeepSurv模型，误差条表示性能的95%置信区间。C-index表示一致性指数；IBS表示综合Brier分数；NBLL表示负二项对数似然。

(A) C-index（一致性指数）：较高的C-index值表示模型的预测性能更好。图表显示了不同模型在仅使用结构化数据与结合使用结构化和LLM结构化非结构化数据时的C-index值。

(B) IBS（综合Brier分数）：较低的IBS值表示模型的预测性能更好。图表展示了在两种不同数据使用情况下，各模型IBS值的降低情况。

(C) NBLL（负二项对数似然）：较低的NBLL值表示模型的预测性能更好。图表显示了在两种不同数据使用情况下，各模型NBLL值的减少情况。