因果推断实践 · 第 10

全书汇总:九种方法的终极对比

第 1 章提出了一个问题:ICU 里给危重病人插右心导管,到底是救人还是害人?第 2 章用 DAG 画出了 RHC 与死亡率之间的混杂结构,确定了调整集。随后的七章用九种不同的因果推断方法回答了这个问题。回归调整从系数漂移中剥离混杂,G 计算构造了反事实人群,倾向得分方法从匹配、加权到重叠权重提供了三条路径,AIPW 拴上了两根保险绳,DML 和 TMLE 用机器学习替代了参数模型,因果森林把平均效应拆解为个体化的 CATE。第 8 章的敏感性分析用 E-value 和 sensemakr 量化了结论对未测量混杂的抵抗力。

现在是把所有结果放到同一张桌子上的时候了。本章不引入新方法,它的任务是整合、比较、反思。一张终极对比表汇总所有估计,一张森林图给出视觉全貌,然后讨论收敛意味着什么、分歧意味着什么、研究者该选哪种方法、RHC 到底是什么结论。

终极对比表

下表汇总了第 3–9 章所有方法的 ATE 估计、置信区间、核心假设和主要局限。回归调整报告的是条件 OR,其余方法报告的都是边际风险差 RD,两种尺度不直接可比,但 OR > 1 与 RD > 0 传递的因果方向相同。

表 10·1 全书方法终极对比表

方法估计95% CI核心假设主要局限
回归调整OR = 1.34[1.18, 1.52]模型设定正确 + 可交换性 + 正值性对函数形式敏感,无显式反事实,条件 OR 非边际效应
G 计算RD = 0.052[0.027, 0.082]结果模型设定正确 + 可交换性 + 正值性单一模型依赖,模型错则估计错,无纠错机制
PSMRD = 0.076[0.041, 0.109]处理模型正确 + 可交换性 + 正值性丢弃 36% 样本,目标人群改变,统计效力下降
IPWRD = 0.055[0.025, 0.085]处理模型正确 + 可交换性 + 正值性极端权重导致方差膨胀,有效样本量下降
OWRD = 0.061[0.033, 0.089]处理模型正确 + 可交换性 + 正值性估计的是 ATO 而非 ATE,目标人群为重叠人群
AIPWRD = 0.044[0.017, 0.072]两个模型至少一个正确 + 可交换性 + 正值性两个模型同时错时失效,有限样本可能出界
DMLRD = 0.040[0.014, 0.065]Neyman 正交 + 交叉拟合 + 可交换性 + 正值性依赖 ML 学习器质量,随机折划分引入波动
TMLERD = 0.088[0.074, 0.103]目标化更新 + SL + 可交换性 + 正值性窄 CI 可能覆盖率偏低,对 SL 配置敏感
因果森林RD = 0.044[0.020, 0.068]可交换性 + 正值性 + 诚实分裂侧重 CATE,ATE 为副产品,小样本方差大

九种方法的估计方向完全一致:RHC 增加了 ICU 患者的 180 天死亡风险。没有任何一种方法给出 RHC 有保护效应的结论。八个风险差估计落在 0.040 到 0.088 之间,中位数约为 0.053。回归调整的 OR = 1.34 对应的方向也是有害。所有置信区间的下界均大于零,统计显著性在每种方法下都成立。

这张表里有几个细节值得注意。第 5 章的倾向得分方法使用了 38 个协变量,第 6 章之后的方法使用了 28 个协变量,变量集的差异会影响点估计。PSM 和 OW 使用了更大的协变量集,IPW 也是如此。第 6 章的 AIPW 在缩减后的 28 个协变量上工作,这解释了同一份数据上不同章节的 G 计算和 IPW 估计为什么会有数值差异。变量集的选择本身就是建模决策的一部分,不同的变量集对应不同的可交换性条件。表中的数字差异既反映了方法差异,也反映了变量集差异,两者的贡献混在一起。

森林图:一张图看全貌

森林图是因果推断和 meta 分析中最常用的可视化工具之一。读法很简单:每一行代表一种方法,红色圆点是该方法的点估计,蓝色横线是 95% 置信区间。图中间有一条竖直虚线标记零点。如果某种方法的横线完全落在零线右侧,说明该方法在 95% 置信水平下认为 RHC 增加了死亡风险。如果横线跨过了零线,说明效应在统计上不显著。点估计越靠右,估计的有害效应越大;横线越短,估计的精度越高。

森林图把八种风险差方法的点估计和 95% 置信区间放在同一张图上。回归调整因为报告的是 OR 而非 RD,没有纳入森林图,但它的方向与所有 RD 方法一致。

set.seed(2026)
library(ggplot2)

# 从第 3--9 章收集的真实估计值
methods <- c(
  "G Computation (Ch.4)", "PSM (Ch.5)", "IPW (Ch.5)",
  "Overlap Weights (Ch.5)", "AIPW (Ch.6)", "DML (Ch.7)",
  "TMLE (Ch.7)", "Causal Forest (Ch.9)")
est   <- c(0.052, 0.076, 0.055, 0.061, 0.044, 0.040, 0.088, 0.044)
ci_lo <- c(0.027, 0.041, 0.025, 0.033, 0.017, 0.014, 0.074, 0.020)
ci_hi <- c(0.082, 0.109, 0.085, 0.089, 0.072, 0.065, 0.103, 0.068)

df <- data.frame(method = factor(methods, levels = rev(methods)),
                 est = est, lo = ci_lo, hi = ci_hi)

ggplot(df, aes(x = est, y = method)) +
  geom_vline(xintercept = 0, linetype = "dashed", color = "grey50") +
  geom_point(size = 3, color = "#EF6548") +
  geom_errorbar(aes(xmin = lo, xmax = hi), width = 0.25,
                color = "#4292C6", linewidth = 0.7, orientation = "y") +
  labs(x = "Risk Difference (RD)", y = NULL,
       title = "ATE Estimates Across Eight Methods") +
  scale_x_continuous(breaks = seq(-0.02, 0.12, 0.02)) +
  theme_minimal(base_size = 14, base_family = "serif") +
  theme(panel.grid.minor = element_blank(),
        panel.grid.major.y = element_blank(),
        plot.title = element_text(hjust = 0.5))
结果解读

森林图的视觉信息很清楚。八个点估计全部落在零线右侧,没有任何一个置信区间的下界穿过零。这意味着无论研究者选择哪种方法,都会得出"RHC 增加死亡风险"的结论。点估计的分布呈现两个层级:TMLE 和 PSM 偏高,分别为 0.088 和 0.076;其余六种方法集中在 0.040 到 0.061 之间。TMLE 的置信区间明显窄于其他方法,这既反映了它利用似然结构的效率优势,也可能意味着有限样本覆盖率偏低。PSM 的点估计偏高可以部分归因于样本筛选效应:匹配丢弃了 36% 的样本,剩余人群的效应可能与全人群不同。

完整森林图见 PDF 全文。

收敛与分歧:跨方法一致性说明了什么

九种方法在方向上完全一致:所有点估计都大于零,所有置信区间的下界都大于零。八个风险差估计落在 0.040 到 0.088 之间,中位数约为 0.053。这本身就是强有力的证据。

为什么方向一致这么重要?因为每种方法依赖不同的假设和建模路径。回归和 G 计算依赖结果模型,PSM、IPW 和 OW 依赖处理模型,AIPW、DML 和 TMLE 同时使用两个模型,因果森林用非参数方法估计异质性效应。如果 RHC 的有害效应只是某种特定建模选择的产物,比如逻辑回归的函数形式恰好制造了偏差,那么换用随机森林或 Super Learner 之后这个效应应该消失。但它没有消失。DML 用随机森林替代了逻辑回归,给出 RD = 0.040;TMLE 用 Super Learner 集成了多种算法,给出 RD = 0.088。参数方法和非参数方法指向同一个方向。

这种跨方法的收敛在因果推断中有一个术语叫做"三角测量",英文称 triangulation。当多种方法从不同角度逼近同一个因果量,且结果指向同一方向时,对因果结论的信心会增强。单一方法的估计永远可以被质疑:"你的模型设定可能错了""你的倾向得分可能遗漏了关键变量"。但当九种方法同时犯同一方向的错误的概率远低于任一方法单独犯错的概率时,方向性的结论就比较可靠了。

置信区间的重叠模式也值得关注。森林图中八个方法的 95% CI 存在大面积的交叉重叠,中心区域大约在 0.04 到 0.07 之间。没有任何一个方法的置信区间与其他方法完全不重叠。这种重叠意味着各方法估计的差异可以被抽样变异性解释,它们在统计学意义上是相互兼容的。

如果某个方法的置信区间与其余所有方法完全分离,就应该认真排查该方法的建模假设是否被违反。

点估计的数值差异同样包含有用的信息。参数方法的 G 计算、IPW 和 AIPW 给出的 RD 在 0.032 到 0.052 之间,使用机器学习的 DML 和因果森林也落在这个区间内。

两个偏离主群的方法各有可追溯的原因。TMLE 的 0.088 偏高,这和第 7 章讨论过的原因一致:TMLE 在 logit 尺度上做目标化更新,与 DML 在线性尺度上做残差校正的路径不同,有限样本中两者可以产生分歧。PSM 的 0.076 偏高则有另一个原因:匹配丢弃了倾向得分极端的样本,剩余人群的基线特征与全人群不同,PSM 估计的严格来说是匹配样本的 ATT 而非全人群的 ATE。

如果去掉 TMLE 和 PSM 这两个有明确偏离原因的估计,剩余六种方法的 RD 集中在 0.040 到 0.061 之间,均值约为 0.049。这个区间可以看作 RHC 边际风险差的合理范围:接受 RHC 使 180 天死亡概率升高约 4 到 6 个百分点。

但跨方法收敛有一个重要的盲区。本书用到的九种方法全部依赖同一个不可检验的假设:条件可交换性,即在控制了观测协变量之后,处理分配与潜在结局独立。如果存在一个未被测量的混杂变量同时影响 RHC 使用和 180 天死亡,那么无论用多少种方法、无论模型多灵活,所有估计都会朝同一个方向偏。

九种方法一致为正,有两种解释:要么 RHC 确实增加了死亡率,要么所有方法共享的可交换性假设被违反了,而违反的方向恰好让效应偏正。这两种解释无法用数据本身区分开来,只能靠领域知识和敏感性分析来判断哪一种更合理。第 8 章的 E-value 分析就是在做这个判断。

方法选择指南

面对同一个因果问题,九种方法给出了方向一致但数值不同的估计。研究者在实际应用中该用哪一种?答案取决于研究场景的具体特征。

当协变量维度低于十个、研究者对变量之间的关系有充分的领域知识时,回归调整和 G 计算是合理的起点。它们的优势是透明和可解释:回归系数可以直接写进论文的表格,G 计算的反事实预测可以逐个检查是否合理。代价是研究者必须为函数形式负全责,交互项该不该加、非线性该怎么处理,都需要事先判断。

一个典型的应用场景:流行病学队列研究中暴露因素和三五个混杂变量之间关系明确,比如吸烟与肺癌的关联控制年龄、性别和社会经济地位。RHC 数据有 28 到 38 个协变量,线性 logistic 回归能否正确捕捉所有关系是一个合理的疑问,所以回归调整在本书中更适合用作基准线,放在附表里和主分析对照。

当研究者更有信心预测"谁接受了处理"而非预测结局时,倾向得分方法是自然的选择。一个典型的场景:ICU 医生根据什么指标决定是否插 RHC,有比较成熟的临床指南和经验总结;但 180 天死亡率受多少因素影响、每个因素的函数形式是什么,远不如处理决策透明。在这种情况下,把建模负担放在处理模型上比放在结果模型上更安全。

三种倾向得分方法各有取舍。IPW 保留全样本但对极端权重敏感,适合正值性表现良好的数据。OW 牺牲了全人群推断换取方差稳定性,适合倾向得分分布尾部很长的数据。PSM 最直观但损失样本,适合需要"匹配后比较"这种直觉叙事的研究,也适合审稿人对倾向得分匹配已经有成熟理解的期刊。

倾向得分方法的一个独特优势是平衡诊断的可视化。Love plot 可以一目了然地展示调整前后所有协变量的平衡状况,这种透明性是回归调整和 G 计算不具备的。在审稿过程中,一张 Love plot 比任何数字都更有说服力地展示了混杂控制的效果。

在大多数现代因果推断分析中,双重稳健方法应该是主分析的默认选项。AIPW、DML 和 TMLE 都具备双重稳健性,同时建两个模型让研究者不用在结果模型和处理模型之间做二选一的赌注。

三者的选择更多取决于学科传统和软件生态。流行病学领域倾向使用 TMLE,因为它的表述接近统计学家熟悉的影响函数和似然语言,tmle 包提供了开箱即用的实现。计量经济学领域倾向使用 DML,因为 Neyman 正交化和矩方法的表述与计量训练更契合,DoubleML 包基于 mlr3 生态支持灵活的学习器配置。手动实现的 AIPW 则适合教学和研究场景,比如本书第 6 章的做法:它让研究者看清公式里每一项的贡献,对理解方法的内部机制有不可替代的价值。

当研究目标从"平均效应是多少"转向"谁获益谁受害"时,因果森林是目前最成熟的工具。一个典型的场景:第 9 章发现高龄、低胆红素的患者 CATE 可达 8 个百分点以上,而高胆红素的肝病患者 CATE 相对较低。这种亚群差异只有因果森林能系统性地挖掘。但因果森林的 ATE 估计只是副产品,如果研究者只关心平均效应,直接用 AIPW 或 DML 更高效。

无论选择哪种方法,敏感性分析都是不可缺少的最后一步。因果推断的所有方法都建立在不可检验的假设之上,敏感性分析的作用是量化"假设需要被违反到什么程度,结论才会翻转"。E-value 提供了一个快速的汇总数字,sensemakr 用已观测协变量的解释力做内部校准,两者配合使用可以给审稿人和读者一个关于结论稳健程度的定量判断。第 8 章用这两种工具检验了 AIPW 的估计,结论是 RHC 的有害效应在中等强度的未测量混杂下就可能被解释掉。这个信息和九种方法的方向一致性一样重要,它界定了因果结论的可信边界。

在论文中报告多方法比较

本书的森林图展示了九种方法的比较,但在正式的研究论文中,如何组织和报告这些结果是一个实操问题。常见的做法是在主文中报告一种事先确定的主分析方法,然后在附表中报告其余方法的结果作为敏感性分析。

主分析方法的选择应该在分析计划中预先指定,选择依据是方法的假设与研究场景的匹配度。如果研究者对结果模型和处理模型都没有强信心,双重稳健方法是安全的默认选项。如果领域内有成熟的倾向得分方法使用传统,PSM 或 IPW 作为主分析也是合理的。关键是选择的理由要写清楚,让读者和审稿人能够评估这个选择是否恰当。

附表中的多方法对比用来回答两个问题:结论对方法选择是否敏感?如果敏感,差异的来源是什么?在 RHC 数据上,九种方法给出了方向一致的结论,这本身就是一个有价值的发现,值得在讨论部分提及。如果某种方法给出了明显不同的结果,比如 TMLE 的 0.088 高于其他方法的 0.040–0.061,研究者应该在讨论中解释可能的原因,比如学习器配置差异或目标化路径差异,而非简单地选择性忽略。

森林图适合放在论文的正文或附录中,作为多方法敏感性分析的可视化总结。它让读者一眼看到所有方法的一致性程度,比单独列举数字更直观。

报告敏感性分析结果时,不需要对每种方法做同样详细的讨论。主分析的方法选择、模型设定、诊断步骤应该在方法部分完整报告。敏感性分析的结果可以简要概括方向一致性,然后引用附表或森林图,让感兴趣的读者自行查看细节。如果敏感性分析的某个方法给出了与主分析不同的结论,则需要在讨论部分认真解释差异的可能原因。

雷区方法购物等同于多重检验

方法选择应该在看到结果之前确定,写在分析计划或预注册方案中。一个常见的问题是"方法购物":研究者跑完所有方法之后,挑选给出最显著或最符合预期的那个作为主分析报告。这和多重检验的问题本质相同,会膨胀假阳性率。正确的做法是事先确定一种方法作为主分析,其余方法作为敏感性分析附在附表中。本书的森林图之所以有意义,是因为它展示的是同一个问题的九种独立回答,而非一个研究者从中挑选最好看的那个。

RHC 的最终结论

经过九章的分析,RHC 的因果效应有了一个比较完整的画面。

从方向上看,九种方法一致指向 RHC 增加 180 天死亡风险。从效应大小看,排除 TMLE 和 PSM 的特殊偏离后,RD 的合理范围在 0.040 到 0.061 之间,即每 100 名接受 RHC 的 ICU 患者中约多 4 到 6 人在 180 天内死亡。回归调整的 OR = 1.34 和这个风险差范围也是匹配的。

从稳健性看,第 8 章的敏感性分析给出了 E-value = 1.42,置信区间下界的 E-value = 1.23。这意味着一个未测量的混杂因素与 RHC 使用和 180 天死亡各自的关联强度都达到 RR = 1.42 以上,就能把观测到的效应完全解释为混杂偏差。RR = 1.23 的残余混杂就能让统计显著性消失。在 ICU 医学领域,已知的强混杂如 APACHE 评分与 RHC 使用的关联可达 RR = 2.0,与死亡率的关联更强。这些强混杂已经被控制了。残余的未测量因素要同时在两端达到 1.42 的关联强度,可能性中等偏低但无法排除。sensemakr 的基准校准显示,3 倍 APACHE 评分强度的混杂才能让效应消失,2 倍就能让统计显著性消失。

从异质性看,第 9 章的因果森林显示 96.9% 的患者 CATE 大于零,只有 3.1% 的患者可能从 RHC 中获益。受害程度在不同人群中有差异:高龄、低胆红素、中高 APACHE 评分的患者受害最重,CATE 可达 8 个百分点以上。高胆红素的肝病患者 CATE 相对较低,可能是因为基线死亡率已经很高,RHC 的边际伤害有限。BLP 检验的 differential.forest.prediction 系数为 0.831,单侧 p=0.063p = 0.063,异质性信号存在但强度温和。变量重要性排名显示胆红素、白细胞计数和血细胞比容是驱动 CATE 变异的前三个变量,这些实验室指标反映了肝功能、感染状态和血液系统的基线状况。

综合这些证据,本书的结论与 Connors 等人 1996 原始论文的发现方向一致:RHC 与更高的 180 天死亡率相关,这个关联在多种因果推断方法下保持稳定。但不能宣称这是一个板上钉钉的因果效应,因为 E-value = 1.42 的保护强度有限。一个关联强度为 RR = 1.42 的未测量混杂就足以解释掉全部效应。ICU 临床决策中可能存在这样的未测量因素,比如主治医师的风险偏好、家属的治疗意愿、床旁对患者"能不能救"的主观判断。这些因素很难用结构化数据捕捉,但它们同时影响 RHC 的使用和患者的预后。

把 E-value 放到 ICU 医学的具体语境中看。APACHE 评分是 RHC 数据中已知最强的混杂变量,第 3 章的系数漂移分析显示控制它之后 OR 从 1.38 降到 1.18,相当于吸收了约 14% 的混杂。sensemakr 的基准校准表明,一个与 APACHE 评分同等强度的残余混杂能让统计显著性消失,3 倍强度才能让效应消失。已经控制了 APACHE 评分本身,但 ICU 中是否存在一个没有测量、但与 APACHE 评分同等重要的混杂因素?考虑到 Connors 1996 的数据收集了当时临床上几乎所有可量化的患者特征,漏掉一个如此强大的混杂因素的可能性不高,但也不能排除。这种"可能性不高但无法排除"的判断,正是观察性研究中因果推断的典型结论形态。

定义RHC 因果效应的最终判断
prop:10-final-verdict

RHC 可能有害,但残余混杂不能被排除。九种方法的方向一致性和 E-value 的中等保护强度加在一起,给出的是一个"令人不安但不确定"的结论。这恰好是 Connors 1996 年论文发表后引发持续争论的原因:证据足够强到让人不敢随意使用 RHC,但不够强到让人确信 RHC 必然有害。后续的随机对照试验也没有推翻这个结论,因为伦理和操作上的困难使得 RHC 的 RCT 始终没有完成。

从方法论的角度看,RHC 数据恰好是因果推断教学的理想案例。它足够复杂:49 个变量、5,735 个观测、处理分配高度非随机、正值性在尾部受到挑战。它足够真实:这不是模拟数据,每一行代表一个真实的 ICU 患者。它的结论足够微妙:效应方向一致但大小不确定,敏感性分析给出的保护有限。一个"效果很大、E-value 很高、所有方法完美收敛"的数据集反而不适合教学,因为它让学生误以为因果推断总能给出确定的答案。RHC 数据告诉我们的是:即使用了最先进的方法,观察性研究的因果结论仍然带有不确定性,而量化和报告这种不确定性是研究者的责任。

未覆盖的主题

本书聚焦于点处理的因果推断,即处理在单一时间点发生、结局在固定时间窗口内观测。这是因果推断最基本的设定,也是所有复杂方法的起点。但真实的研究场景远比这复杂,以下几个方向是本书没有覆盖但值得进一步学习的。

中介分析回答的是"处理通过什么机制影响结局"。RHC 增加了死亡率,但增加的机制是什么?可能的路径包括:RHC 插管操作本身导致并发症增加,比如气胸或血管损伤;RHC 提供的血流动力学数据引导了更激进的治疗策略,而这些策略本身有风险;或者 RHC 延长了 ICU 住院时间,增加了院内感染的机会。分解总效应为直接效应和间接效应需要额外的无混杂假设和专门的估计方法,VanderWeele 2015 的专著是这个领域的标准参考。

缺失数据在临床研究中无处不在。RHC 数据的完整性相对较好,但很多真实数据集存在大量缺失值。缺失的机制是完全随机的 MCAR、条件随机的 MAR、还是非随机的 MNAR,决定了什么样的处理方法是合理的。多重插补和逆概率加权是两种主流的处理策略,它们可以与本书介绍的因果推断方法结合使用。如果结局变量本身存在缺失,比如 180 天随访时部分患者失访,那么失访机制就成了另一种形式的混杂,需要专门的方法来处理。

纵向因果推断处理的是时变处理和时变混杂。如果 ICU 患者在第一天、第三天、第七天分别接受了不同的干预,而每次干预决策受到之前健康状态的影响,同时健康状态又受到之前干预的影响,传统的点处理方法就不再适用。控制中间时间点的健康状态会阻断因果路径,不控制又会留下混杂,回归调整在这种场景下左右为难。Robins 提出的边际结构模型,简称 MSM,和 G 方法的纵向推广是处理这类问题的标准框架。MSM 使用逆概率加权的思路,但权重反映的是整个处理历史的概率,而非单一时间点的倾向得分。G 方法的纵向版本则通过迭代的条件期望计算来处理时变混杂。Hernán & Robins 2020 的教科书对两种方法都有系统的讲解。

准实验方法在处理变量不受研究者控制时提供识别策略。工具变量利用一个外生的"推手"来估计因果效应,断点回归利用政策阈值附近的局部随机化,双重差分利用处理前后和处理组对照组的交叉比较。这些方法在经济学和政策评估中应用广泛,Angrist & Pischke 2009 是经典的入门读物。在 RHC 数据的语境下,如果某些医院的 RHC 使用率因为外部政策原因突然变化,就可以用双重差分或工具变量来利用这种外生变异估计因果效应,从而绕过可交换性假设的限制。

这些方向中的每一个都可以写一本书。本书的定位是把点处理场景下的方法讲透,让读者在自己的研究中能够选择合适的方法、正确实现、合理解读。掌握了本书介绍的九种方法之后,学习上述高级主题会顺畅得多,因为它们的核心逻辑都是本书方法的推广或变体。G 计算推广到纵向就是序贯 G 计算,IPW 推广到纵向就是 MSM 的时变权重,AIPW 的双重稳健思想在纵向场景中同样适用。因果森林的 CATE 估计可以扩展到生存分析的框架中。理解了点处理场景下每种方法的设计动机和失效机制,就能在更复杂的场景中做出有根据的方法选择。

定义练习 10.1

选择本书中任意两种方法在 RHC 数据上的估计结果,计算它们的点估计差异和置信区间重叠程度。讨论这种差异可能来自哪些来源:方法本身的差异、变量集的差异、目标估计量的差异,还是抽样变异。

结果解读参考解答

以 G 计算的 RD = 0.052,95% CI [0.027, 0.082] 和 AIPW 的 RD = 0.044,95% CI [0.017, 0.072] 为例。点估计差 0.008,两个置信区间重叠区间为 [0.027, 0.072],重叠很大。差异来源包括:G 计算只依赖结果模型,AIPW 同时使用了处理模型的 IPW 校正项,该校正项把 G 计算的估计往下拉了约 0.008。两者的变量集相同,目标估计量都是全人群的 ATE。置信区间的大面积重叠说明差异可以被抽样变异解释。

方法卡片全书方法速查

探索性分析:回归调整,快速定位关键混杂变量,用作基准线。

需要边际效应:G 计算,直接在概率尺度上输出风险差,绕过非压缩性。

对结果模型没信心:IPW 或 OW,只需建处理模型。极端权重用 OW。

对任何单一模型没信心:AIPW / DML / TMLE,双重稳健,两根保险绳。

需要机器学习灵活性:DML 或 TMLE,配合 Super Learner 降低函数形式风险。

探索谁获益谁受害:因果森林,输出个体化 CATE 和变量重要性排名。

检验结论稳健性:E-value + sensemakr,量化翻盘所需的混杂强度。

回顾全书的方法演进,可以看到一条清晰的脉络。回归调整把全部赌注压在一个结果模型上;G 计算用标准化改进了效应提取方式但仍然依赖同一个模型;倾向得分方法把赌注从结果模型转移到处理模型;AIPW 同时建两个模型实现了双重稳健;DML 和 TMLE 用机器学习替代了参数模型,降低了函数形式错误的风险;因果森林在此基础上进一步拆解了平均效应,揭示了个体层面的异质性。每一步都是对前一步某个弱点的改进,后来的方法并不"替代"前面的方法,而是在更宽的适用范围内工作。理解了回归的局限才能理解 G 计算为什么存在,理解了单一模型的风险才能理解双重稳健的价值,理解了参数模型的天花板才能理解机器学习嵌入因果推断的必要性。

结语

本书从"相关不等于因果"这句每个研究者都听过的警告出发,在同一份 RHC 数据上依次展开了九种因果推断方法。这些方法从逻辑回归的一个系数开始,到因果森林的五千多个个体化效应预测结束,覆盖了参数与非参数、单一模型与双重稳健、平均效应与异质性效应的完整光谱。全书只用了一个问题和一份数据,但走过了从 Rosenbaum-Rubin 1983 到 Chernozhukov 2018 的三十五年方法论演进。方法在变,但因果推断的核心逻辑没有变:识别假设决定了能从数据中读出什么,模型只是执行识别的计算工具,而敏感性分析告诉你结论离"被推翻"还有多远。掌握了这三层结构,读者在面对自己的数据时就有了一个可靠的分析框架:画 DAG 确定调整集,选择与研究场景匹配的估计方法,用敏感性分析量化结论的可信边界。这三步构成了观察性研究中因果推断的完整工作流。

本章知识地图

表 10·2 全书核心概念与常见误解总览

核心概念核心内容常见误解为什么错
跨方法收敛九种方法方向一致增强因果结论的可信度选数字最小或最大的那个方法就行方法购物膨胀假阳性率,主分析应事先确定
三角测量用不同假设的方法从不同角度逼近同一因果量方法越多结论越可靠如果所有方法共享同一个错误假设,比如遗漏了同一个混杂,收敛也可以是假的
E-value 与稳健性未测量混杂需要 RR = 1.42 才能翻盘,保护强度中等E-value 大就证明没有未测量混杂E-value 只量化翻盘所需的混杂强度,不排除这种混杂存在
方法选择根据研究场景匹配方法,双重稳健方法是现代因果分析的默认选项存在一种普遍最优的方法每种方法有自己的假设和局限,选择看的是方法和数据的匹配度
RHC 结论RHC 可能有害但残余混杂不能排除,结论与 Connors 1996 一致九种方法一致就等于因果关系确立所有方法都依赖可交换性假设,未测量混杂是共同的盲区
识别与估计分离识别假设决定能从数据读出什么,模型只是执行计算的工具用了高级模型就不需要担心假设Super Learner 和因果森林不能替代可交换性,假设错了模型再好也没用
模型设定正确参数方法要求函数形式与真实数据生成过程一致变量放对了就够了变量正确但函数形式错误仍会产生设定偏误,高维场景下几乎不可能手动设定全对
双重稳健性两个模型至少一个对就能给出一致估计双重稳健 = 万无一失两个模型同时错时保护失效,用参数模型时两个模型的误差往往高度相关
正值性每个协变量组合下接受处理和不接受处理的概率都大于零没有精确的 0 或 1 就没问题接近 0 或 1 就足以让 IPW 方差爆炸,重叠权重通过压低极端个体权重来缓解
效应异质性ATE 可能掩盖个体差异,CATE 揭示谁获益谁受害ATE 适用于每一个个体ATE 是人群平均,如果效应正负相消,ATE 可能接近零但个体效应很大
条件 OR vs 边际 RD回归给条件 OR,G 计算和后续方法给边际 RD控制混杂后 OR 下降就是混杂被消除非压缩性让条件 OR 和边际 OR 在非线性模型中天然不等,下降可能是数学性质而非混杂
敏感性分析定位量化翻盘所需的混杂强度,是压力测试而非验证做了敏感性分析就证明了因果关系敏感性分析不能排除未测量混杂存在,只能量化推翻结论的门槛
论文报告规范主分析事先确定,多方法比较作为敏感性分析附在附表跑完所有方法挑最好看的报告方法购物等价于多重检验,膨胀假阳性率