顶刊BMJ杂志推荐方法学文章！断点回归方法介绍

直播课程

2024年2月27日，顶级医学期刊BMJ发表了一篇有关断点回归设计研究的指南，文中所介绍的断点回归既具有类似随机对照组的优势，又能依托于观察性研究的数据。因此推荐医学研究者在临床研究、观察性研究中广泛地采用此方法。

导读

长期以来，随机对照研究（RCT）都被视为评估医学干预和因果关系的金标准，来自RCT研究的证据被认为是质量较高的一类证据。然而，RCT研究存在耗费的人力物力大、伦理要求严格等问题、在实际实施中往往面临多种困难。因此，医学研究人员经常需要求助于观察性研究来回答关键研究问题。但观察性研究又容易受到多种偏倚、混杂因素的影响，限制了因果推断的质量。

为解决两者间的矛盾，一类新型的研究设计------断点回归设计（regression discontinuity design，RDD）被提出，并且近年来越来越多的RDD开始应用于医学研究。我们先用一个案例体会一下。

例如，我们想评估考上清华能否对未来工作的收入带来影响。

假设清华高考分数线为688分，则考试成绩为687的人无法上清华大学，而考试分数为689的人可以。那么工作收入便是结局变量y、考试分数就是自变量x，"考上清华"可以理解为一个干预措施。对于考试分数683~687分和689~693来说，这两组的总分差距不超过10分，可以认为这两组人在能力上其实没什么差别，唯一区别是能否进入清华。因此，我们围绕着688分的界值，在坐标轴上对这两组数据进行回归拟合，形成两个回归模型。模型的系数代表分数对收入的影响强度，截距项可以理解为是否考进清华带来收入差异。

上述的案例便是一个极简单的断点回归设计分析。作为一种研究设计，其背后必然有相应的应用假设和统计方法，下面我们结合BMJ发表的断点回归设计指南中的案例来谈谈。

举例：

降压药是否能降低心血管疾病风险

首先断点回归设计没有随机分组，分组依据是选择一个研究关注的与干预措施有关的分组变量（收缩压），分组变量每个取值对应有一个因变量结果（心血管疾病风险），随后采用特定的方法选择分组变量的某个值作为截断值（比如临床指南中建议收缩压≥140mmHg为降压药指征）。

这里我们引入一个**"带宽"**的概念，带宽是围绕截断值进行分析的范围，假设我们设计15mmHg的带宽，则断点以下和以上的两组的血压范围分别为125~140mmHg和140~155mmHg。根据截断值和带宽即可划分出干预组和对照组。

通过以上设定我们便得到了一个可用于**探究降压药是否能降低心血管疾病风险的试验设计。**O为纳入分析的观测数据，C为截断值，X为干预措施（例如是否服用降压药）。

接下来开始进行模型拟合。首先回顾一下模型的组成部分。 1. 分组变量（收缩压），2. 截断值（收缩压140mmHg ），3. 干预措施（降压药），4. 结局（发生心血管病），5. 效应值（心血管病风险）。为了贴近实际，我们再加一个年龄作为协变量。

首先我们先将收缩压作为X轴、心血管病风险作为Y轴进行绘制散点图并进行多项式拟合，观察随着收缩压变化对应心血管病风险的变化情况。那么这时候问题来了，如何确定每一个收缩压对于的心血管病风险呢？

因为是否发生心血管病是一个二分类变量，通过logistics回归便可构建收缩压与心血管病风险的模型，进而得到收缩压所对应的具体心血管病风险，但别忘了协变量也要纳入到模型里。随后可绘制出如下关系图。

从上图可以看到收缩压与心血管疾病之间的整体呈正相关，符合预期。但是在图中也存在部分数据点的血压高于截断值，但发病风险却更低的情况。这便形成了一个截断值周围数据分布的"连续性"问题。RDD分析有一个基本假设，即在切点邻域内的研究对象有相似的基线特征，称为连续性假设 **。**下文会针对截断值周围的数据开展连续性检验，此处先不予处理。

随后进行断点回归分析，生成如下结果：

结果显示，最优带宽为9.571mmHg，在140mm处，心血管病的发生风险发生"骤降"，下降值为-5.1%（95% -14.7% to 1.4%）, P =0.329。

带宽选择需要权衡偏差和方差。此处由程序计算出的最优带宽为9.571mmHg，意味着此分析的结果在140mmHg±9.571mmHg的范围内具有良好的内部有效性。较小的带宽可能导致较低的偏差，这很容易理解，血压范围越窄的人群同质性也就越高，但同时也会导致在分析中使用的观察数较少而产生较大的方差。

然而此时显示的结果还没有敲定。截断值附近的发病风险的变化受三个因素影响， 1. 降压药物、2. 由于截断值周围收缩压分布不均匀引起、3. **截断值周围协变量年龄分布不均匀引起。**我们当然希望发病风险的变化都是由降压药物导致的，这样就可以下结论了。但在这之前，要排除其余两个因素对结果的影响，即对收缩压和协变量年龄在截断值处的分布进行连续性检验（密度函数）。

从上图的收缩压连续性检验中结果我们可以发现，没有证据表明在截断值前后血压数据的密度出现跳跃变化，可以接受密度函数在收缩压 =140mmHg 处连续的假设。

上图为程序生成的协变量与分组变量的连续性检验，其零假设是协变量中没有回归不连续效应。结果显示，年龄与收缩压之间总体呈正相关，符合预期。局部平均处理效应估计值 (Lwald 值) 为0.007 ，95%CI （-0.081 ，0.095 ），P=0.877 ，即可认为协变量年龄在无穷接近于截断值的左右是可比的( 即该协变量的回归不连续效应接近0 **）。**这张图也提示为何不能简单地比较截断值以上和以下的所有个体（协变量本身也会影响结局），而应聚焦于截断值周围的局部数据。

至此，我们排除了收缩压和协变量年龄在截断值处的分布对结局的影响，可以做出以下结果描述：通过降压药物治疗，心血管病的发生风险在 140mmHg 处发生明显向下的跳跃，瞬时下降值-5.1% （95%: -14.7% to 1.4% ），但差异不具有统计学意义（P>0.05 ）。

总结归纳

总结一下断点回归分析的流程：

① 明确断点回归模型的主要组成成分。结局变量、截断值、分组变量等

② 绘制分组变量与结局变量的散点图，在截断值两侧进行多项式拟合

③ 建立局部回归模型，计算带宽、估计局部平均效应及95%CI、P值

④ 连续性检验，评估分组变量、协变量在截断值周围的连续性、可比性。

在实际实践中，上述流程可以通过R语言或Stata软件快速实现（见参考资料1）。值得强调一下，RDD分析是基于连续性的假设，分析样本是从总体中随机抽取的样本，在断点处应有回归函数连续，分组变量可影响处理变量，也可对结果变量产生影响。因此，在进行RDD分析时，强调要进行连续性假设检验，以使切点两侧的分析样本满足相似性的要求。

公共卫生领域的真实世界数据很多，但现有利用RDD分析干预效果和因果关联的研究不多。RDD在内部有效性方面优于其他实验设计。与交叉滞后设计相比，RDD相对省时；而与单臂设计相比，RDD设有对照组，便于控制混杂因素。虽然RDD可与RCT媲美,但结论局限于带宽范围内，外部有效性受到一定限制。因此RDD的统计效率低于RCT, 为达到与RCT相同或类似的统计效率，建议RDD需要的样本量应不少于RCT的2.75倍。另外，基于观察性资料的RDD不仅可控制可观测的混杂因素，还可控制无法观测的混杂因素。

如今，我国医学领域数字化进程不断加快，建立了越来越来多的区域医疗卫生大数据平台，为RDD分析方法提供了良好的数据基础。在医学、公共卫生领域中，RDD分析为疾病因果关联及防控策略研究带来了新的思路。

思路最后列举一些流行病学领域中使用RDD研究案例供各位参考阅读。

比较人类免疫缺陷病毒(HIV)感染者早期和延迟治疗对死亡的影响[4]；
评估与地面臭氧相关的空气质量警告对户外活动的影响[5]；
分析人乳头瘤病毒(HPV)疫苗和危险性行为的关系[6]；
分析在新型冠状病毒感染期间对老年人社交距离的建议[7]。

参考资料：

1.Calonico S, Jawadekar N, Kezios K, Zeki Al Hazzouri A. Regression discontinuity design studies: a guide for health researchers BMJ 2024; 384 :e072254 doi:10.1136/bmj-2022-072254

2.郭昭艳, 刘莉, 余方方, 等. 断点回归设计在流行病学研究中的应用 [J] . 中华预防医学杂志, 2021, 55(9) : 1168-1172.

3.屈水令, 张悦, 王琦琦, 金承刚, 于石成. 断点回归方法及应用实现[J]. 环境卫生学杂志, 2024, 14 (01): 1-7.

4.Bor J, Moscoe E, Mutevedzi P, et al. Regression discontinuity designs in epidemiology: causal inference without randomized trials[J]. Epidemiology, 2014, 25(5): 729-737. DOI: 10.1097/EDE.0000000000000138.

5.Neidell M. Air quality warnings and outdoor activities: evidence from Southern California using a regression discontinuity design[J]. J Epidemiol Community Health, 2010, 64(10): 921-926. DOI: 10.1136/ jech.2008.081489.

6.Frio GS, França MTA. Human papillomavirus vaccine and risky sexual behavior: regression discontinuity design evidence from Brazil[J]. Econ Hum Biol, 2021, 40: 100946. DOI: 10.1016/ j.ehb.2020.100946.

7.Bonander C, Stranges D, Gustavsson J, et al. A regression discontinuity analysis of the social distancing recommendations for older adults in Sweden during COVID-19 [J]. Eur J Public Health, 2022, 32(5): 799-806. DOI: 10.1093/eurpub/ckac101.

本公众提供各种科研服务了！

|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 一、课程培训 2022年以来，我们召集了一批富有经验的高校专业队伍，着手举行短期统计课程培训班，包括R语言**、meta分析、临床预测模型、真实世界临床研究、问卷与量表分析、医学统计与SPSS、临床试验数据分析、重复测量资料分析、nhanes、孟德尔随机化等10余门课**。如果您有需求，不妨点击查看：发文后退款：2024-2025年科研统计课程介绍 二、数据分析服务 浙江中医药大学郑老师团队接单各项医学研究数据分析的服务，提供高质量统计分析报告。有兴趣了解一下详情：课题、论文、毕业数据分析临床试验设计与分析、公共数据库挖掘与统计 |