第一节 因果推断引言
相关性和时序性!=因果
伪因果/伪关系
因果之梯三大层级:相关;干预;反事实
辛普森悖论(例如愿意主动参加报名的人本来粘性就高,不能将其参加活动的效果与不主动参加活动的人的效果混为一谈)
因果推断主要工具:
随机对照试验(潜在因果模型)
类试验设计(1.双重差分;2.合成控制;3.断点回归)
非试验场景(1.潜在因果模型)
随机试验与潜在因果模型
用difference in means推断因果效应的重要假设:
(1)实验单元的指标结果不受其他试验对象的状态影响,如网络效应
(2)实验单元之间独立
(3)实验单元是否被放到试验组和指标结果独立-没有选择偏差
准试验设计
1.双重差分法
不要求试验组和控制组完全一致,但要求这种差异不随时间产生变化,也就是说处理组和试验组之间必须具有相同的发展趋势
稳健型检验:增强结论的说服力
平行趋势检验:政策节点之前,处理组和控制组之间不存在平行趋势之外的差异
安慰剂检验:如果随机选择样本作为伪处理组,那么不应该和对照组有差异
2.合成控制法
合成虚拟对照组,缺点:不能作为推断
3.断点回归设计
精准断点回归,模糊断点回归
鲁宾对于观测性数据的因果推断研究(没搞懂嗯嗯)
给定协变量x
A/B试验是什么?
第一类错误:真实没差异,检验出差异(实验显著,上线没效果)
可能是因为检测时间挨得太近导致的
第二类错误:真实有差异,没检测出差异(试验不显著,但策略真的有效果)
可以计算测试需要多少的样本量