顶刊BMJ杂志推荐方法学文章!断点回归方法介绍

直播课程

郑老师本周六:真实世界临床研究直播课**(点击了解详情)**

2024年2月27日,顶级医学期刊BMJ发表了一篇有关断点回归设计研究的指南,文中所介绍的断点回归既具有类似随机对照组的优势,又能依托于观察性研究的数据。因此推荐医学研究者在临床研究、观察性研究中广泛地采用此方法。


导读

长期以来,随机对照研究(RCT)都被视为评估医学干预和因果关系的金标准,来自RCT研究的证据被认为是质量较高的一类证据。然而,RCT研究存在耗费的人力物力大、伦理要求严格等问题、在实际实施中往往面临多种困难。因此,医学研究人员经常需要求助于观察性研究来回答关键研究问题。但观察性研究又容易受到多种偏倚、混杂因素的影响,限制了因果推断的质量。

为解决两者间的矛盾,一类新型的研究设计------断点回归设计(regression discontinuity design,RDD)被提出,并且近年来越来越多的RDD开始应用于医学研究。我们先用一个案例体会一下。

例如,我们想评估考上清华能否对未来工作的收入带来影响。

假设清华高考分数线为688分,则考试成绩为687的人无法上清华大学,而考试分数为689的人可以。那么工作收入便是结局变量y、考试分数就是自变量x,"考上清华"可以理解为一个干预措施。对于考试分数683~687分和689~693来说,这两组的总分差距不超过10分,可以认为这两组人在能力上其实没什么差别,唯一区别是能否进入清华。因此,我们围绕着688分的界值,在坐标轴上对这两组数据进行回归拟合,形成两个回归模型。模型的系数代表分数对收入的影响强度,截距项可以理解为是否考进清华带来收入差异。

上述的案例便是一个极简单的断点回归设计分析。作为一种研究设计,其背后必然有相应的应用假设和统计方法,下面我们结合BMJ发表的断点回归设计指南中的案例来谈谈。

举例:

降压药是否能降低心血管疾病风险

首先断点回归设计没有随机分组,分组依据是选择一个研究关注的与干预措施有关的分组变量(收缩压),分组变量每个取值对应有一个因变量结果(心血管疾病风险),随后采用特定的方法选择分组变量的某个值作为截断值(比如临床指南中建议收缩压≥140mmHg为降压药指征)。

这里我们引入一个**"带宽"**的概念,带宽是围绕截断值进行分析的范围,假设我们设计15mmHg的带宽,则断点以下和以上的两组的血压范围分别为125~140mmHg和140~155mmHg。根据截断值和带宽即可划分出干预组和对照组。

通过以上设定我们便得到了一个可用于**探究降压药是否能降低心血管疾病风险的试验设计。**O为纳入分析的观测数据,C为截断值,X为干预措施(例如是否服用降压药)。

接下来开始进行模型拟合。首先回顾一下模型的组成部分。 1. 分组变量(收缩压),2. 截断值(收缩压140mmHg ),3. 干预措施(降压药),4. 结局(发生心血管病),5. 效应值(心血管病风险)。为了贴近实际,我们再加一个年龄作为协变量。

首先我们先将收缩压作为X轴、心血管病风险作为Y轴进行绘制散点图并进行多项式拟合,观察随着收缩压变化对应心血管病风险的变化情况。那么这时候问题来了,如何确定每一个收缩压对于的心血管病风险呢?

因为是否发生心血管病是一个二分类变量,通过logistics回归便可构建收缩压与心血管病风险的模型,进而得到收缩压所对应的具体心血管病风险,但别忘了协变量也要纳入到模型里。随后可绘制出如下关系图。

从上图可以看到收缩压与心血管疾病之间的整体呈正相关,符合预期。但是在图中也存在部分数据点的血压高于截断值,但发病风险却更低的情况。这便形成了一个截断值周围数据分布的"连续性"问题。RDD分析有一个基本假设,即在切点邻域内的研究对象有相似的基线特征,称为连续性假设 **。**下文会针对截断值周围的数据开展连续性检验,此处先不予处理。

随后进行断点回归分析,生成如下结果:

结果显示,最优带宽为9.571mmHg,在140mm处,心血管病的发生风险发生"骤降",下降值为-5.1%(95% -14.7% to 1.4%), P =0.329。

带宽选择需要权衡偏差和方差。此处由程序计算出的最优带宽为9.571mmHg,意味着此分析的结果在140mmHg±9.571mmHg的范围内具有良好的内部有效性。较小的带宽可能导致较低的偏差,这很容易理解,血压范围越窄的人群同质性也就越高,但同时也会导致在分析中使用的观察数较少而产生较大的方差。

然而此时显示的结果还没有敲定。截断值附近的发病风险的变化受三个因素影响, 1. 降压药物、2. 由于截断值周围收缩压分布不均匀引起、3. **截断值周围协变量年龄分布不均匀引起。**我们当然希望发病风险的变化都是由降压药物导致的,这样就可以下结论了。但在这之前,要排除其余两个因素对结果的影响,即对收缩压和协变量年龄在截断值处的分布进行连续性检验(密度函数)。

从上图的收缩压连续性检验中结果我们可以发现,没有证据表明在截断值前后血压数据的密度出现跳跃变化,可以接受密度函数在收缩压 =140mmHg 处连续的假设。

上图为程序生成的协变量与分组变量的连续性检验,其零假设是协变量中没有回归不连续效应。结果显示,年龄与收缩压之间总体呈正相关,符合预期。局部平均处理效应估计值 (Lwald 值) 为0.007 ,95%CI (-0.081 ,0.095 ),P=0.877 ,即可认为协变量年龄在无穷接近于截断值的左右是可比的( 即该协变量的回归不连续效应接近0 **)。**这张图也提示为何不能简单地比较截断值以上和以下的所有个体(协变量本身也会影响结局),而应聚焦于截断值周围的局部数据。

至此,我们排除了收缩压和协变量年龄在截断值处的分布对结局的影响,可以做出以下结果描述:通过降压药物治疗,心血管病的发生风险在 140mmHg 处发生明显向下的跳跃,瞬时下降值-5.1% (95%: -14.7% to 1.4% ),但差异不具有统计学意义(P>0.05 )。

总结归纳

总结一下断点回归分析的流程:

① 明确断点回归模型的主要组成成分。结局变量、截断值、分组变量等

② 绘制分组变量与结局变量的散点图,在截断值两侧进行多项式拟合

③ 建立局部回归模型,计算带宽、估计局部平均效应及95%CI、P值

④ 连续性检验,评估分组变量、协变量在截断值周围的连续性、可比性。

在实际实践中,上述流程可以通过R语言或Stata软件快速实现(见参考资料1)。值得强调一下,RDD分析是基于连续性的假设,分析样本是从总体中随机抽取的样本,在断点处应有回归函数连续,分组变量可影响处理变量,也可对结果变量产生影响。因此,在进行RDD分析时,强调要进行连续性假设检验,以使切点两侧的分析样本满足相似性的要求。

公共卫生领域的真实世界数据很多,但现有利用RDD分析干预效果和因果关联的研究不多。RDD在内部有效性方面优于其他实验设计。与交叉滞后设计相比,RDD相对省时;而与单臂设计相比,RDD设有对照组,便于控制混杂因素。虽然RDD可与RCT媲美,但结论局限于带宽范围内,外部有效性受到一定限制。因此RDD的统计效率低于RCT, 为达到与RCT相同或类似的统计效率,建议RDD需要的样本量应不少于RCT的2.75倍。另外,基于观察性资料的RDD不仅可控制可观测的混杂因素,还可控制无法观测的混杂因素。

如今,我国医学领域数字化进程不断加快,建立了越来越来多的区域医疗卫生大数据平台,为RDD分析方法提供了良好的数据基础。在医学、公共卫生领域中,RDD分析为疾病因果关联及防控策略研究带来了新的思路。

思路最后列举一些流行病学领域中使用RDD研究案例供各位参考阅读。

  1. 比较人类免疫缺陷病毒(HIV)感染者早期和延迟治疗对死亡的影响[4];

  2. 评估与地面臭氧相关的空气质量警告对户外活动的影响[5];

  3. 分析人乳头瘤病毒(HPV)疫苗和危险性行为的关系[6];

  4. 分析在新型冠状病毒感染期间对老年人社交距离的建议[7]。

参考资料:

1.Calonico S, Jawadekar N, Kezios K, Zeki Al Hazzouri A. Regression discontinuity design studies: a guide for health researchers BMJ 2024; 384 :e072254 doi:10.1136/bmj-2022-072254

2.郭昭艳, 刘莉, 余方方, 等. 断点回归设计在流行病学研究中的应用 [J] . 中华预防医学杂志, 2021, 55(9) : 1168-1172.

3.屈水令, 张悦, 王琦琦, 金承刚, 于石成. 断点回归方法及应用实现[J]. 环境卫生学杂志, 2024, 14 (01): 1-7.

4.Bor J, Moscoe E, Mutevedzi P, et al. Regression discontinuity designs in epidemiology: causal inference without randomized trials[J]. Epidemiology, 2014, 25(5): 729-737. DOI: 10.1097/EDE.0000000000000138.

5.Neidell M. Air quality warnings and outdoor activities: evidence from Southern California using a regression discontinuity design[J]. J Epidemiol Community Health, 2010, 64(10): 921-926. DOI: 10.1136/ jech.2008.081489.

6.Frio GS, França MTA. Human papillomavirus vaccine and risky sexual behavior: regression discontinuity design evidence from Brazil[J]. Econ Hum Biol, 2021, 40: 100946. DOI: 10.1016/ j.ehb.2020.100946.

7.Bonander C, Stranges D, Gustavsson J, et al. A regression discontinuity analysis of the social distancing recommendations for older adults in Sweden during COVID-19 [J]. Eur J Public Health, 2022, 32(5): 799-806. DOI: 10.1093/eurpub/ckac101.

本公众提供各种科研服务了!

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 一、课程培训 2022年以来,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班,包括R语言**、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课**。如果您有需求,不妨点击查看: 发文后退款:2024-2025年科研统计课程介绍 二、数据分析服务 浙江中医药大学郑老师团队接单各项医学研究数据分析的服务,提供高质量统计分析报告。有兴趣了解一下详情: 课题、论文、毕业数据分析 临床试验设计与分析公共数据库挖掘与统计 |

相关推荐
IT古董10 分钟前
【漫话机器学习系列】017.大O算法(Big-O Notation)
人工智能·机器学习
Jasmine_llq11 分钟前
《 火星人 》
算法·青少年编程·c#
凯哥是个大帅比11 分钟前
人工智能ACA(五)--深度学习基础
人工智能·深度学习
闻缺陷则喜何志丹22 分钟前
【C++动态规划 图论】3243. 新增道路查询后的最短距离 I|1567
c++·算法·动态规划·力扣·图论·最短路·路径
m0_7482329230 分钟前
DALL-M:基于大语言模型的上下文感知临床数据增强方法 ,补充
人工智能·语言模型·自然语言处理
szxinmai主板定制专家36 分钟前
【国产NI替代】基于FPGA的32通道(24bits)高精度终端采集核心板卡
大数据·人工智能·fpga开发
海棠AI实验室39 分钟前
AI的进阶之路:从机器学习到深度学习的演变(三)
人工智能·深度学习·机器学习
Lenyiin40 分钟前
01.02、判定是否互为字符重排
算法·leetcode
机器懒得学习1 小时前
基于YOLOv5的智能水域监测系统:从目标检测到自动报告生成
人工智能·yolo·目标检测