学习干货IF=93.6!开发临床预测模型:分步指南

预测患者未来结果对临床实践至关重要,有助于医生做出明智决策。尽管每年发布大量预测模型,但许多研究存在方法学局限,如样本量不足和模型验证不充分,这削弱了模型的实际应用价值。因此,必须深入探讨并改进这些局限性,以提升模型的实用性和可靠性。

没有病例资源,也没有经费支持,小医生该怎么发表论文啊?

别急,教程这不就来了吗

2024年9月3日,The BMJ又发布了论文《Developing clinical prediction models: a step-by-step guide》(《开发临床预测模型:分步指南》)。

本文提供了一份分步指南,旨在帮助研究人员开发和评估临床预测模型。该指南涵盖了定义目标和用户、选择数据源、处理缺失数据、探索替代建模选项以及评估模型性能的最佳实践。通过复发缓解型多发性硬化症的实例,具体展示了这些步骤,同时附有全面的 R 代码供参考。

**题目:**Developing clinical prediction models: a step-by-step guide

**杂志:**The BMJ

**影响因子:**IF=93.6

**中科院分区:**医学一区

**发表时间:**2024年9月

一、术语表

术语表表1总结了所使用的基本概念和术语,便于读者快速理解关键内容。

二、临床预测模型的13个步骤

每年发布的许多预测模型常常存在方法上的缺陷,限制了其内部有效性和适用性。为此,制定了13步指南,帮助医疗保健专业人员和研究人员开发和验证预测模型,避免常见陷阱。

Step 01:确定目标、组建团队、查看文献、开始编写方案

Step 02:选择开发新模型或更新现有模型

Step 03:定义结果衡量标准

Step 04:确定候选预测因子并指定测量方法

候选预测变量

我们应根据文献综述和专家知识确定潜在的预测因子(第1步)。这些因子应使用既定的、可靠的方法进行客观定义和衡量,同时理解支持预测因子与结果关联的生物途径是关键。应优先纳入已证实或怀疑与结果有因果关系的预测因子,以提高模型的泛化性。但不应先验排除与结果没有因果关系的潜在预测因子,因为它们可能仍对模型性能有帮助。我们必须仅包括基线预测因子,即在做出预测时可获得的信息。对连续预测变量进行二分法或分类会减少信息并削弱统计能力,应避免。此外,不应仅根据相关模型性能选择连续结果的类别,而是应在测试多个分类阈值后做出决策。

考虑预测模型的用户

考虑模型的预期用途(在第1步中定义)和数据的可用性至关重要。应明确哪些变量在临床实践中常规测量,哪些在数据库中可用,以及与其测量相关的成本和实际问题,例如侵入性程度。比如,退伍军人老龄化队列研究指数(VACS指数2.0)预测HIV感染者的全因死亡率,但某些预测因子如肝纤维化指数(FIB-4)在许多HIV高发地区的常规实践中不可用。同样,对多发性硬化症预后模型的系统评价发现,75个模型中有44个(59%)包含不太可能在初级保健或标准医院环境中测量的预测因子。

Step 05:收集并检查数据

Step 06:考虑样本大小

简单模型或基于无关协变量的模型在开发数据和新数据中表现不佳,称为欠拟合。相反,过多预测因子的模型在小型数据集中虽表现良好,却无法准确预测新数据。过拟合比欠拟合更常见,因为数据集通常较小,研究者倾向于追求最佳性能。因此,确保数据量足够以开发稳健模型至关重要。

Step 07:处理缺失数据

如步骤5所述,删除具有大量缺失值的预测变量或结果后,我们仍需处理保留数据中的缺失值。仅依靠完整个案(即所有变量数据齐全的参与者)进行模型开发可能会显著减少样本量。为减少在模型开发和评估过程中有价值信息的损失,研究人员应考虑对缺失数据进行插补。

Step 08:拟合预测模型

①注意偏差-方差权衡

②欠拟合与过拟合

Step 09:评估预测模型的性能

①区分度、校准度,不同类型结果预测模型应选择不同的性能测量指标。

②内部验证、内部-外部验证、外部验证(作者呼吁外部验证研究应该与模型开发分开,最好是不同研究人员来做)

Step 10:确定最终模型

在性能接近的模型中选择更简单的模型(奥卡姆剃刀原理,一个有名的机器学习模型选择依据)

例如,当逻辑回归模型的性能与用于区分年轻人1型和2型糖尿病的优化机器学习模型相似时,我们更倾向于选择逻辑回归,因为它更简单、更易于沟通和使用。

Step 11:执行决策曲线分析

Step 12:评估单个预测变量的预测能力

在预测建模中,关键不在于评估单个预测因子的影响,而是优化整体模型的预测性能。尽管识别重要预测因子仍有价值,特别是在评估新生物标志物或可修改因子时,研究人员可选择评估预测变量的预测能力。通过查看广义线性回归模型的估计系数,可以简单评估不同预测因子的影响,但在假设不满足(如共线性)时,这些估计可能不可靠。另一种方法是比较包含和不包含某预测变量的模型,以观察性能变化。更高级的方法如排列重要性和SHAP算法可以提供进一步分析。无论采用何种方法,谨慎解读结果至关重要,因为数据中的关联不一定反映因果关系,需进行深入的因果推理分析以确认因果关联。

Step 13:撰写并发布

三、基础流程图

论文提供了一个分步指南,用于开发和验证临床预测模型(如下图所示)

相关推荐
云上艺旅12 小时前
K8S学习之基础七十四:部署在线书店bookinfo
学习·云原生·容器·kubernetes
你觉得20512 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
8K超高清13 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
币之互联万物13 小时前
2025 AI智能数字农业研讨会在苏州启幕,科技助农与数据兴业成焦点
人工智能·科技
云卓SKYDROID13 小时前
科技赋能消防:无人机“挂弹灭火“构筑森林防火墙!
人工智能·科技·无人机·科普·云卓科技
A旧城以西14 小时前
数据结构(JAVA)单向,双向链表
java·开发语言·数据结构·学习·链表·intellij-idea·idea
无所谓จุ๊บ14 小时前
VTK知识学习(50)- 交互与Widget(一)
学习·vtk
FAREWELL0007514 小时前
C#核心学习(七)面向对象--封装(6)C#中的拓展方法与运算符重载: 让代码更“聪明”的魔法
学习·c#·面向对象·运算符重载·oop·拓展方法
吴梓穆14 小时前
UE5学习笔记 FPS游戏制作38 继承标准UI
笔记·学习·ue5
云卓SKYDROID14 小时前
无人机机体结构设计要点与难点!
人工智能·科技·无人机·科普·云卓科技