因果推理研究方向综述笔记

文章目录

- [1 领域概览与方向关系图](#1 领域概览与方向关系图)
- - 核心定义
  - [Pearl 因果层级（Ladder of Causation）](#Pearl 因果层级（Ladder of Causation）)
  - 七大方向关系图
- [2 因果发现 Causal Discovery](#2 因果发现 Causal Discovery)
- - 主流算法类别
  - 重要论文与代码
  - 时序因果发现
- [3 因果效应估计 Causal Effect Estimation](#3 因果效应估计 Causal Effect Estimation)
- - 核心方法
  - 核心开源库
- [4 因果表示学习 Causal Representation Learning](#4 因果表示学习 Causal Representation Learning)
- - 三大核心子问题
  - 重要论文
- [5 LLM 与因果推理](#5 LLM 与因果推理)
- - [核心争论：LLM 真的会"推因果"吗？](#核心争论：LLM 真的会"推因果"吗？)
  - 代表论文
- [6 因果强化学习 Causal RL](#6 因果强化学习 Causal RL)
- - 四大应用场景
  - 重要资源
- [7 反事实推理 Counterfactual Reasoning](#7 反事实推理 Counterfactual Reasoning)
- - 重要资源
- [8 因果 NLP 与医疗应用](#8 因果 NLP 与医疗应用)
- - [8.1 因果 NLP](#8.1 因果 NLP)
  - [8.2 医疗因果推理](#8.2 医疗因果推理)
- [9 核心开源工具汇总](#9 核心开源工具汇总)
- [10 Benchmark 与数据集](#10 Benchmark 与数据集)
- [11 研究方向选择建议](#11 研究方向选择建议)
- - 方向定位矩阵
  - 按目标推荐
  - 入门学习路径（按方向）
- [12 参考资源](#12 参考资源)
- - [Awesome 论文列表](#Awesome 论文列表)
  - 课程与教材
  - [重要会议与 Workshop](#重要会议与 Workshop)

1 领域概览与方向关系图

核心定义

因果推理研究变量间的因果关系而非相关关系，理论基础来自两大框架：

框架	提出者	核心概念
结构因果模型（SCM）	Judea Pearl	因果图、do 算子、反事实
潜在结果框架（PO）	Donald Rubin	处理效应、倾向得分、随机对照

Pearl 因果层级（Ladder of Causation）

层级	操作	典型问题	对应方向
L1 关联（Association）	观察	X 与 Y 相关吗？	统计/ML
L2 干预（Intervention）	行动	do(X=x) 后 Y 如何变化？	因果效应估计
L3 反事实（Counterfactual）	想象	若当时 X=x'，Y 会是什么？	反事实推理

七大方向关系图

复制代码

           [观测数据 / 高维非结构化数据]
                      │
          ┌───────────┴───────────┐
          ▼                       ▼
   【因果发现】              【因果表示学习】
   还原变量因果图              从数据中提取
   (DAG/CPDAG)                潜在因果因子
          │                       │
          └───────────┬───────────┘
                      ▼
             【因果效应估计】
             量化干预的因果效应
             (ATE / CATE / HTE)
                      │
          ┌───────────┼───────────┐
          ▼           ▼           ▼
   【反事实推理】  【因果 RL】  【因果 NLP/医疗】
   L3 层推断    因果世界模型   文本/基因/临床
                             因果关系挖掘
                      ▲
             【LLM × 因果推理】
             贯穿所有方向的横切能力
             （加速发现/推断/提示增强）

关键依赖：因果效应估计通常需要已知或假设因果图（因果发现的产出）；因果表示学习是将深度学习引入上游的桥梁；LLM 是目前贯穿所有方向的"横切关注点"。

2 因果发现 Causal Discovery

目标：从观测数据或干预数据中自动学习变量间的因果图结构（DAG / CPDAG / MAG）。

入门路径：先读 NOTEARS（理解可微优化范式）→ Benchpress 文档（了解算法全景）→ OCDB（了解评测标准）

所需背景：概率图模型、线性代数、基本优化理论；Python 编程

主流算法类别

类别	代表算法	核心思路	适用场景
约束型	PC、FCI	条件独立性检验 + 方向规则	变量较少、样本充足
评分型	GES、NOTEARS、DAGMA	优化评分函数（BIC/连续约束）	变量中等、可微优化
函数因果模型型	LiNGAM、ANM	利用非高斯噪声/非线性不对称性	非线性/非高斯场景
深度学习型	DAG-GNN、DECI、NoCurl	神经网络参数化 + 可微 DAG 约束	高维、非线性
LLM 辅助型	CMA、LLM-CD	LLM 先验初始化图结构 + 数据驱动细化	有领域知识/元数据

重要论文与代码

经典基础

NOTEARS (Zheng et al., NeurIPS 2018)

首次将 DAG 结构学习转化为连续优化问题（无环约束的代数刻画），开启可微因果发现时代

代码：https://github.com/xunzheng/notears
causal-learn (CMU，持续维护)

PC、FCI、GES、LiNGAM、ANM 等经典算法的 Python 标准实现，文档完整，入门首选

代码：https://github.com/py-why/causal-learn

文档：https://causal-learn.readthedocs.io

深度学习因果发现

DECI: Deep End-to-end Causal Inference (Geffner et al., UAI 2022)

统一因果发现与因果效应估计的深度生成框架，支持混合数据类型

代码：https://github.com/microsoft/causica
DAGMA (Bello et al., NeurIPS 2022)

替代 NOTEARS 的更稳定可微 DAG 学习方法

代码：https://github.com/kevinsbello/dagma

LLM 辅助因果发现

CMA (Causal Modeling Agent) (2024)
LLM 基于元数据提出初始因果图，深度结构因果模型（DSCM）对数据拟合细化，两阶段协同
论文：https://www.cs.emory.edu/~jyang71/files/llmcd.pdf

评测基准

OCDB: Open Causal Discovery Benchmark (arXiv 2406.04598, 2024)

基于真实数据的因果发现公平评测框架，推动可复现比较

论文：https://arxiv.org/abs/2406.04598
Benchpress (开源评测平台，2024年12月更新)

集成 TETRAD、pcalg、bnlearn、gCastle、pyAgrum 等数十种算法，Snakemake 工作流

代码：https://github.com/felixleopoldo/benchpress

时序因果发现

时序数据下的因果发现额外面临滞后效应、非平稳性等挑战，是独立活跃子领域。

CausalRivers (2025)：目前最大规模真实时序因果评测集（德国+巴伐利亚 1160 个水文站，2019-2023，15 分钟分辨率）

主页：https://causalrivers.github.io/
TimeGraph (arXiv 2506.01361, 2025)：时序因果发现合成基准，含生成脚本与评估协议

代码：https://github.com/hferdous/TimeGraph

3 因果效应估计 Causal Effect Estimation

目标：在给定因果图（或假设）下，从观测/实验数据中估计干预对结果的因果效应，包括平均处理效应（ATE）和异质处理效应（CATE/HTE）。

入门路径：先读《Causal Inference for the Brave and True》前几章（直觉建立）→ DoWhy 官方 Tutorial → EconML 文档中的 Double ML 示例

所需背景：统计推断、线性回归、倾向得分、基本 ML 知识；Python 编程

核心方法

方法	核心思路	适用场景
倾向得分匹配/加权（PSM/IPW）	均衡处理组与对照组协变量分布	观测数据、二元处理
双重机器学习（DML）	残差化 + Neyman 正交性，鲁棒估计 CATE	高维协变量、连续处理
因果森林（Causal Forest / GRF）	局部随机森林估计异质效应	非线性异质效应
元学习器（S/T/X/R-Learner）	多个 ML 模型组合拟合 CATE	灵活，可插拔任意 ML
工具变量（IV / 2SLS）	借助工具变量处理未观测混杂	存在不可观测混杂
断点回归（RDD）	利用阈值处的局部随机性	连续评分指标场景

核心开源库

DoWhy (Microsoft / PyWhy，持续维护)

端到端框架：建模 → 识别 → 估计 → 验证（反驳检验），2024 年新增 DoWhy-GCM（图因果模型推断）

代码：https://github.com/py-why/dowhy
EconML (Microsoft Research / ALICE 项目)

专注 CATE 估计，集成 DML、DR-Learner、因果森林、正交 IV 等

代码：https://github.com/py-why/EconML
CausalML (Uber)

Uplift Modeling + 因果推断，面向工业界 A/B 测试优化，支持树模型和神经网络

代码：https://github.com/uber/causalml

DoWhy + EconML 组合：DoWhy 负责四步因果流程框架，EconML 提供估计器，两者 API 已打通，是当前工业界实践的主流选型。KDD 2025 Workshop 展示了处理连续处理变量的端到端流水线。

4 因果表示学习 Causal Representation Learning

目标：从高维非结构化数据（图像、文本、基因数据）中学习潜在的因果生成因子及其结构，是连接深度学习与因果推理的核心桥梁。

入门路径：先读 ICA/可识别性基础 → TMLR 2024 综述（建立框架）→ NeurIPS 2024 概念表示论文（看前沿）

所需背景：变分推断/生成模型（VAE/扩散）、流形学习、概率论；有可识别性理论基础更佳

三大核心子问题

子问题	描述	代表工作
可识别性（Identifiability）	在什么条件下能从数据唯一恢复潜在因果因子？	iVAE, ILCM, SlowVAE
因果生成模型	将 SCM 结构嵌入 VAE/GAN/Flow/扩散模型	CausalVAE, VACA, DEAR
域泛化与 OOD	通过学习不变因果特征提升跨域泛化	IRM, ICRL, CausalDG

重要论文

Survey: From Identifiable Causal Representations to Controllable Counterfactual Generation (TMLR 2024)

系统综述因果生成建模：可识别性条件、因果表示学习方法、可控反事实生成

代码与论文列表：https://github.com/Akomand/Causal-Generative-Modeling-Survey
From Causal to Concept-Based Representation Learning (NeurIPS 2024)

建立从因果表示到基于概念的表示学习的严格理论条件（可识别性 + 概念对齐）

论文：https://proceedings.neurips.cc/paper_files/paper/2024/file/b76a9959151d377ddd2c77a275a97475-Paper-Conference.pdf
ICRL: Independent Causality Representation Learning for Domain Generalization (Scientific Reports 2025)

将独立因果分量（Independent Causal Mechanisms）用于域泛化任务

论文：https://www.nature.com/articles/s41598-025-96357-0
Causal Inference Meets Deep Learning: A Comprehensive Survey (Research / SPJ 2024)

系统梳理深度学习 × 因果推理的研究图景，覆盖语音、文本、图结构、图像四大模态

论文：https://spj.science.org/doi/10.34133/research.0467

PMC 全文：https://pmc.ncbi.nlm.nih.gov/articles/PMC11384545/
Deep Causal Learning: Representation, Discovery and Inference (ACM Computing Surveys 2025)

从表示、发现、推断三维度综述深度因果学习

论文：https://dl.acm.org/doi/10.1145/3762179

5 LLM 与因果推理

定位：LLM 在因果推理中扮演双重角色------既是研究对象（LLM 的因果能力评测），也是研究工具（LLM 加速因果发现/推断）。这是近两年增长最快的交叉方向，贯穿其他所有方向。

注意区分：本节聚焦 LLM 与通用因果推理框架的交叉；NLP 文本中因果关系的挖掘见第 8 节。

入门路径：读 Kiciman et al. 2024（了解争论全貌）→ CausalInference with LLM Survey (NAACL 2025)（建立系统认知）

核心争论：LLM 真的会"推因果"吗？

立场	依据	代表工作
乐观派：具备因果推理能力	GPT-4 在配对因果发现任务达 97%（+13pt），反事实推理达 92%（+20pt）	Kiciman et al. 2024
悲观派：依赖记忆而非推理	CausalProbe 2024 用训练截止后的新数据测试，性能大幅下滑	CausalProbe 2024
折中派：增强提示可弥补缺口	G2-Reasoner（通用知识 + 目标导向提示）显著提升新鲜任务表现	Unveiling 2025

代表论文

能力评测类

Causal Reasoning and Large Language Models: Opening a New Frontier for Causality

(Kiciman et al., Microsoft Research → TMLR 2024)

首篇系统评估 GPT 系列因果推理能力的工作，引发后续大量研究

arXiv：https://arxiv.org/abs/2305.00050
Unveiling Causal Reasoning in Large Language Models: Reality or Mirage? (2025)

提出 CausalProbe 2024 基准 + G2-Reasoner 框架，论证"记忆 vs 推理"问题

论文：https://arxiv.org/html/2506.21215v1

工具使用类（LLM 作为因果分析加速器）

Causal Reasoning in LLMs: A Knowledge Graph Approach (arXiv 2410.11588, 2024)

利用知识图谱随机游走构造含因果结构的提示，提升 LLM 因果推理性能

论文：https://arxiv.org/abs/2410.11588
Large Language Models for Causal Discovery: Current Landscape and Future Directions (IJCAI 2025)

系统梳理 LLM 辅助因果发现的方法、局限与未来方向

论文：https://arxiv.org/html/2402.11068v2

综述类

Causal Inference with Large Language Model: A Survey (NAACL 2025 Findings)
全面梳理 LLM 在因果推断中作为工具与研究对象的双重定位
论文：https://aclanthology.org/2025.findings-naacl.327.pdf
arXiv 版：https://arxiv.org/pdf/2409.09822v3

生成模型赋能类

Causal Representation Learning with Generative AI: Application to Texts as Treatments (arXiv 2410.00903, 2024)
GenAI 增强从文本/图像中学习因果表示，开源 Python 包 GPI
工具：https://gpi-pack.github.io/
论文：https://arxiv.org/html/2410.00903v4

6 因果强化学习 Causal RL

目标：将因果结构（因果图 / 结构方程）融入强化学习，提升策略的样本效率、泛化性与可解释性。

入门路径：读 Bareinboim 的 CRL 综述报告（理论基础）→ Awesome-CRL 列表中 ICML 2024 论文（最新进展）

所需背景：强化学习基础（MDP、Q-learning、策略梯度）+ 因果推理基础（SCM、do 算子）

四大应用场景

场景	核心问题	代表工作
离线 RL	因果世界模型减少分布偏移与 OOD 错误外推	Causal World Model (2024)
可解释 RL	学习因果图解释动作→状态→奖励的影响链	Explainable RL via CWM (IJCAI 2023)
多智能体 RL	建模智能体间的因果影响传播	ICML 2024 多篇
具身智能	世界模型中嵌入因果结构，支持规划与泛化	Foundation World Models (2024)

重要资源

Survey: A Survey on Causal Reinforcement Learning (TNNLS 2025)

含完整论文列表，按子主题分类

代码：https://github.com/libo-huang/Awesome-Causal-Reinforcement-Learning
Columbia CausalAI Lab - CRL 主页 (Bareinboim 团队)

理论最深、最权威的因果 RL 研究组，含系列论文与课程资料

主页：https://crl.causalai.net/
Explainable RL via a Causal World Model (IJCAI 2023 / 扩展版 2024)

无需先验因果结构，自动学习因果世界模型并解释决策

论文：https://arxiv.org/abs/2305.02749
Offline Model-Based RL with Causal Structured World Models (Frontiers of Computer Science 2024)

理论证明因果环境模型在离线 RL 中的优越性

论文：https://journal.hep.com.cn/fcs/EN/10.1007/s11704-024-3946-y
CLeaR 2024 论文集 （Causal Learning and Reasoning，洛杉矶 2024.4.1-3）

覆盖因果 RL、因果表示、因果发现等方向最新进展

主页：https://proceedings.mlr.press/v236/

7 反事实推理 Counterfactual Reasoning

目标：回答 Pearl 因果层级第三层问题------"若当时的干预不同，结果会如何变化？"------应用于可解释 AI、算法公平性和决策支持。

注意区分：

反事实解释：针对黑盒模型输出，寻找最小化特征修改使预测翻转（可解释性工具）
反事实推断：基于 SCM 的概率量化，需要完整因果模型（理论更严格）

入门路径：读 ACM Computing Surveys 2024 综述（建立全局认知）→ DiCE 文档（动手实践）

所需背景：ML 基础、优化理论；若做反事实推断需要 SCM 知识

重要资源

理论综述

Counterfactual Explanations and Algorithmic Recourses for ML: A Review (ACM Computing Surveys 2024)
系统梳理反事实解释的定义、属性（可行性、近邻性、多样性）、算法与评测
论文：https://dl.acm.org/doi/10.1145/3677119

工具与代码

DiCE (Diverse Counterfactual Explanations) (Microsoft)

生成多样化反事实解释，支持任意黑盒模型，提供 Scikit-learn / TF / PyTorch 接口

代码：https://github.com/interpretml/DiCE
alibi (Seldon)

生产级模型解释库，包含 CEM（对比解释法）、反事实引导解释等模块

代码：https://github.com/SeldonIO/alibi

前沿研究

Counterfactual Prediction Sets (ICML 2024)

将反事实推理融入预测集设计，用于决策支持系统

代码：https://github.com/Networks-Learning/counterfactual-prediction-sets
RL 训练 vs 监督微调的反事实推理泛化 (ICLR 2026)

实验发现 RL 训练的模型反事实泛化能力显著强于 SFT，且迁移至数学任务

论文：https://openreview.net/pdf?id=Lm46gJA0q8
Counterfactual Explanations May Not Be the Best Algorithmic Recourse Approach (IUI 2025)

质疑反事实解释作为算法申诉工具的有效性，讨论替代路径

论文：https://iis.seas.harvard.edu/papers/upadhyay2025counterfactual.pdf

8 因果 NLP 与医疗应用

8.1 因果 NLP

定位：将因果推理方法应用于 NLP 任务（去混杂、公平性、数据增强、因果关系抽取），或从文本中挖掘/表示因果知识。

与第 5 节的区别：第 5 节关注 LLM 对通用因果推理框架（发现/效应估计）的影响；本节关注文本本身作为研究对象，提取文本中的因果关系或用因果方法改进 NLP 模型。

论文总列表 ：https://github.com/zhijing-jin/CausalNLP_Papers（按任务类型分类，持续更新）
Survey: Causal Inference in NLP (TACL 2022)：奠基综述，覆盖估计、预测、解释三类任务

论文：https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00511/113490/
ACL 2024 Best Paper ：Causal Estimation of Memorisation Profiles（用因果方法分析 LLM 记忆）
ACL 2025 ：Causal Estimation of Tokenisation Bias（分词偏差的因果量化）
Open Event Causality Extraction with LLM (ACL 2024)：LLM 辅助构建事件因果关系数据集

8.2 医疗因果推理

定位：因果推理与医疗健康数据结合，解决治疗效果评估、药物副作用发现、基因调控网络推断等问题。

LLM 辅助医学因果关系抽取 (MDPI Information 2025)

从临床实践指南（CPG）文本自动提取因果关系用于知识图谱

论文：https://www.mdpi.com/2078-2489/16/1/13
LLMs as Co-Pilots for Causal Inference in Medical Studies (2024)

探讨 LLM 辅助医学观测研究中混杂控制与效应估计

论文：https://cs.nyu.edu/~neill/papers/cer2025.pdf
CausalBench (CRISPR scRNA-seq 基因组数据集)

重要发现：利用干预信息的方法在真实数据上并不优于仅用观测数据的方法，挑战合成基准结论

主页：https://wsdm26.causalbench.org/
Large-Scale Benchmark for Network Inference from Single-Cell Perturbation Data (Communications Biology 2025)

单细胞扰动数据因果网络推断大规模基准

论文：https://www.nature.com/articles/s42003-025-07764-y

9 核心开源工具汇总

工具	主要用途	维护方	代码链接
DoWhy	端到端因果推断框架（建模→识别→估计→验证）	PyWhy/Microsoft	GitHub
EconML	CATE/HTE 估计（DML/因果森林/元学习器）	PyWhy/Microsoft	GitHub
CausalML	Uplift Modeling + A/B 测试	Uber	GitHub
causal-learn	经典因果发现算法（PC/FCI/GES/LiNGAM）	PyWhy/CMU	GitHub
gCastle	因果发现算法集合（含深度学习方法）	Huawei Noah's Ark	GitHub
CAUSICA / DECI	深度端到端因果推断（发现+估计统一）	Microsoft	GitHub
Benchpress	因果发现算法评测平台（多算法对比）	学术开源	GitHub
DiCE	多样化反事实解释	Microsoft	GitHub
alibi	生产级模型解释（含反事实）	Seldon	GitHub
NOTEARS	可微因果发现（奠基实现）	CMU（Zheng Xun）	GitHub
DAGMA	改进的可微 DAG 学习	学术	GitHub

10 Benchmark 与数据集

名称	领域	规模与特点	链接
OCDB	因果发现（真实数据）	多数据集，推动公平评测	arXiv
CausalRivers	时序因果发现（水文）	1160 测站，5 年，15 分钟分辨率	主页
TimeGraph	时序因果发现（合成）	含生成脚本与评估协议	GitHub
CausalBench	基因组干预数据	CRISPR scRNA-seq，真实干预	主页
CausalProbe 2024	LLM 因果 QA	训练截止后构建，避免记忆污染	arXiv
CausalST 数据集	时空因果（交通/气象）	含多个真实场景数据集	GitHub

11 研究方向选择建议

方向定位矩阵

方向	理论深度	工程复杂度	发表空间	产业落地	当前热度
因果发现	高	中	宽（顶会稳定）	中	★★★☆
因果效应估计	中	低	宽（ML+统计双轨）	高	★★★☆
因果表示学习	极高	高	宽（NeurIPS/ICML）	低-中	★★★★
LLM × 因果推理	中	低	极宽（爆发增长）	高	★★★★★
因果强化学习	高	高	中（竞争激烈）	中（具身AI）	★★★☆
反事实推理	中	低	中	高（XAI/公平性）	★★★☆
因果 NLP/医疗	中	中	宽（跨学科）	极高	★★★☆

按目标推荐

入门 / 快速见到成果

LLM × 因果发现：LLM 提供元数据先验 + 传统算法数据拟合，代码量适中，顶会接受度高，CMA 框架已提供可扩展基线
反事实解释（XAI）：工具链成熟（DiCE/alibi），应用场景清晰（信用评分/医疗决策），ACM Surveys 2024 指出仍有大量开放问题

深耕 / 追求高影响力

因果表示学习：理论门槛高、成果稀缺，但 NeurIPS/ICML 持续高度重视；与扩散模型、多模态 LLM 结合是当前最前沿交叉点
因果强化学习（具身 AI 方向）：离线 RL + 因果世界模型是 Embodied AI 研究的底层基础设施，长期价值高

应用导向 / 产业合作

因果效应估计：A/B 测试、广告归因、医疗 RCT 替代，DoWhy+EconML 生态成熟，KDD 专设工业 Workshop
因果 NLP / 医疗因果：跨学科优势明显，适合与医院/制药/金融机构合作；中文医疗数据稀缺，有差异化空间

入门学习路径（按方向）

复制代码

通用基础（建议所有方向先完成）：
  《Causal Inference for the Brave and True》前 6 章（免费在线，Python 代码）
  Pearl《The Book of Why》（直觉建立，非技术向）

因果发现方向：
  causal-learn 文档 → NOTEARS 论文 → Benchpress 跑实验 → OCDB 评测

因果效应估计方向：
  DoWhy Tutorial → EconML DML 示例 → KDD 2025 Workshop 论文

因果表示学习方向：
  VAE/流模型基础 → iVAE 论文 → TMLR 2024 综述 → NeurIPS 2024 最新论文

LLM × 因果方向：
  Kiciman et al. 2024 → NAACL 2025 综述 → 选定子任务复现实验

12 参考资源

Awesome 论文列表

列表	内容	链接
awesome-causality-algorithms	按任务分类的因果算法索引（持续更新）	GitHub
causal-ml	因果推断 × 深度/机器学习必读论文	GitHub
CausalNLP_Papers	NLP 中的因果推理论文（按任务分类）	GitHub
Awesome-Causal-RL	因果强化学习论文与代码	GitHub
Causal-Generative-Modeling-Survey	因果生成建模综述配套列表（TMLR 2024）	GitHub
CausalST_Papers	时空数据中的因果推理论文	GitHub

课程与教材

Causal Inference for the Brave and True （开源，Python，计量+ML 视角）
https://github.com/matheusfacure/python-causality-handbook
NYU 2024 Spring: Introduction to Causal Inference in Machine Learning （Kyunghyun Cho）
https://github.com/kyunghyuncho/2024-causal-inference-machine-learning

重要会议与 Workshop

会议/Workshop	频率	定位	链接
CLeaR（Causal Learning and Reasoning）	年度	因果学习理论+方法顶会	PMLR Vol.236
KDD Causal Inference & ML in Practice	年度 Workshop	工业应用导向	KDD 2025
UAI（Uncertainty in AI）	年度	因果+概率图模型	---
WSDM CausalBench Workshop 2026	年度	因果模型评测	主页