这篇文章深入浅出地讲解了双重差分法(DiD)中那个最重要但也最难搞的"平行趋势"假设。作者通过模拟一个城市就业培训项目的案例,直观地展示了如果这个假设不成立,你的因果推断结论会跑偏到哪里去。文中还给出了视觉检查、预趋势测试和安慰剂测试这三招诊断工具,教你如何像专业数据科学家一样验证结论的可靠性。如果你在做政策评估或活动复盘,这篇避坑指南非常值得收藏。
1 初始场景:寻找合适的基准
1.1 为什么需要比较组?
为了更好地理解这个问题,我们模拟一个场景:我们想估算一项就业培训计划对就业率的因果影响。我们想评估 A 市的就业培训计划是否对该市的就业产生了积极影响。
然而,政策制定者决定将该计划推向全市,所以我们没有来自随机试验的信息。此外,我们也没有关于该计划个体参与者的信息。这使得使用倾向评分匹配等方法来估算因果效应变得不可能。
简而言之,我们只有汇总层面的数据。这是分析特定行动效果的标配场景。我们这里讨论的不仅是公共政策评估,还包括广泛的商业活动,如营销活动或赞助。因此,了解帮助我们评估此类活动的方法至关重要。
1.2 寻找"影子"城市
因果推断的核心在于寻找基准或比较组。我们不能仅通过分析 A 市来估算因果效应,因为有太多我们无法控制的因素。幸运的是,在我们的例子中,我们可以获得 B 市的就业数据。B 市是 A 市的邻市,其规模、人口统计和经济结构都非常相似。对我们来说幸运的是,B 市没有引入任何就业培训计划。
2 双重差分法(DiD)及其核心假设
2.1 什么是 DiD?
2017 年,A 市启动了旨在降低失业率的就业培训计划。其邻市 B 没有。到 2021 年,A 市的失业率大幅下降。这是否足以让我们得出政策有效的结论?
在庆祝之前,我们必须问一个关键问题:是该计划导致了下降,还是 A 市即使没有该计划也能实现这一目标? 这正是双重差分法(Difference-in-Differences)旨在回答的问题。
DiD 是一种广泛使用的因果推断方法,通过比较受处理组和控制组随时间变化的结果来估算处理或干预的效果。如果两组在没有处理的情况下会以类似的方式演变,那么处理后结果的任何差异都可以归因于干预。
2.2 平行趋势假设
两组在没有处理的情况下会遵循平行趋势的假设是必不可少的。如果这个假设成立,DiD 可以给出可靠的因果估算。如果不成立,结果可能会产生误导。
3 模拟实战:平行趋势的重要性
为了演示平行趋势的重要性,我们模拟了两个城市 11 年(2011--2021 年)的失业数据。我们设定了一个真实的干预效果,即失业率下降 1 个百分点。
3.1 场景 1:平行趋势成立
在 2017 年之前,两个城市的失业率趋势相似。计划开始后,A 市的失业率下降得更快。

当我们对这些数据运行 DiD 回归时,它准确地估算出约 -2 个百分点的处理效应,非常接近实际模拟的影响。

3.2 场景 2:平行趋势被违反
假设 A 市在 2017 年干预之前就已经开始经历失业率的改善,可能是由于更强的经济基础或最初并不明显的统计优势。在这种情况下,预先存在的差异将违反平行趋势假设。

当我们应用相同的 DiD 回归模型时,它估算出的处理效应约为 -3 个百分点。虽然这个结果看起来比场景 1 更令人印象深刻,但它是无效的。该方法错误地将预先存在的改善归因于就业培训计划,从而夸大了处理效应。

4 诊断工具:如何验证平行趋势假设
平行趋势假设实际上是不可测试的,因为我们无法观测到"如果没有干预会发生什么"的平行宇宙。但我们可以通过以下工具进行验证:
4.1 视觉检查:最直观的第一步
绘制按组和时间划分的结果图是第一步。我们寻找处理前的趋势一致性。如果视觉检查发现趋势存在差异,那么我们可以确信 DiD 可能不是适合该问题的因果推断工具。
4.2 预趋势测试(Pre-Trend Tests)
预趋势测试涉及检查在干预之前,受处理组和控制组的结果变量趋势是否存在显著差异。我们通过运行一个回归模型,以处理变量为目标,以处理指标与年份的交互项为预测变量。
在场景 1 中,交互项 (treated:year) 在统计上不显著,这表明处理前的趋势没有实质性差异,使 DiD 分析具有可信度:

在场景 2 中,交互项在统计上是显著的,这表明即使在处理开始之前,受处理组的失业率变化也不同。这表明平行趋势假设被违反:

4.3 安慰剂测试(Placebo Tests)
安慰剂测试通过假装干预提前开始(在你明知没有实际处理的时期)来揭示假阳性。如果安慰剂模型在这个时期发现了显著的处理效应,这就是一个严重的危险信号。
场景 1(平行趋势成立) :
placebo_did 的系数在统计上不显著。

场景 2(平行趋势被违反) :
placebo_did 的系数这次是显著的,表明存在一个不存在的效应。

5 总结与局限性
双重差分法是因果推断的强大工具,但其可信度关键取决于平行趋势假设。虽然该假设无法直接测试,但利用视觉检查、预趋势测试和安慰剂分析可以帮助分析师获得对结果的信心,或尽早识别潜在陷阱。最终,细致的诊断结合深厚的领域专业知识,是确保因果推断结论有效的基石。
参考文献
- Angrist, J. D., & Pischke, J. S. (2008). Mostly Harmless Econometrics: An Empiricist's Companion.
- Card, D., & Krueger, A. B. (1994). Minimum wages and employment: A case study of the fast-food industry in New Jersey and Pennsylvania. American Economic Review.