医学研究的公共话语几乎离不开"因果"。我们说某药"降低死亡率"、某暴露"增加风险"、某策略"改善预后"。基金申请、论文引言、指南推荐,也常以"临床意义"之名指向因果结论:如果我这么做,患者会不会更好?然而,把因果当作研究目标,并不等于在实践中执行因果推断。更常见的情形是:因果被当作一种结论姿态或写作修辞,而非一套可重复、可审计、可质疑的完整流程。于是出现一个结构性落差------话语上高度重视因果,日常实践中却很少真正运行"因果推断作为流程"。这种落差并非因为医学界缺方法,恰恰相反:方法早已丰富。真正缺的是把因果当作"需要逐步交代、逐点验收"的意识。
这种落差具体体现在哪里?大体可以从四个环节看到:问题定义、时间结构、偏倚处理与语言使用。它们共同构成一种"看似因果、实则相关"的惯性工作方式。
一、问题定义:临床问题被说成因果问题,但没有被"定型"为可识别的因果估计量
医学研究最常见的开头是:某治疗是否有效?某因素是否是危险因素?这当然是因果问题。但在许多实际研究里,这些问题并没有被进一步加工成因果推断所要求的"可操作对象":对比的干预是什么、暴露如何界定、何时开始、持续多久、对照条件是什么、结局在何时评估、是否允许交叉或联合治疗、要估计的是平均处理效应还是特定人群效应。这些要素如果不明确,研究就很难对应到一个清晰的估计量;而没有估计量,就谈不上选择匹配的识别策略,更谈不上审计偏倚路径。
典型表现是:论文把暴露写成"是否使用某药",但没有说明"起始时点"与"定义窗口",导致暴露在随访过程中不断变化;把治疗组定义为"住院期间用过药",对照组定义为"没用过",却忽略治疗发生在结局之前还是之后、是否存在"必须活到用药那一刻"的先决条件。再比如,研究问题想回答"早期使用抗凝是否降低 30 天死亡",但实际分析却是"任何时间使用抗凝与死亡的关联"。两者的差异不是措辞问题,而是目标因果问题 与实施的数据问题错位:前者需要明确的"起始时点"和"可比的治疗策略",后者只是在既有数据里找一个方便的暴露标签。
当因果问题没有被定型为可估计的对象,研究很自然地滑向"能算什么就算什么"的统计关联:回归模型能跑、P 值能出、图表能画,但因果意义只能靠讨论部分"补写"。这不是研究者不懂因果,而是整个工作流没有把"问题---估计量---识别---估计---敏感性分析"当作必须完成的链条。
二、时间结构:医学数据天然是纵向的,但分析经常被压扁成横截面相关
医学场景里,暴露、病情、依从性、合并用药、检查频率、治疗升级都在随时间变化;结局也往往与"何时发生"有关。按因果推断的视角,时间结构是核心,因为偏倚常从时间里长出来:不死时间偏倚、时间依赖混杂、幸存者偏倚、治疗变化引发的选择机制。但在许多日常研究中,时间被简化为"基线协变量 + 终点结局",纵向过程被压缩为一次性的标签。
这种压扁带来两个后果。第一,研究会在不自觉中引入结构性偏倚:例如把"随访中曾经接受某手术"当暴露,比较其与死亡的关系,而没有对"必须存活到手术时点"这一事实做处理。第二,研究会把临床策略问题(何时开始、何时调整、何时停用)误写为"是否发生过"的比较,从而无法回答真正的决策问题。
在随机对照试验(RCT)里,时间结构通常由方案(protocol)兜底:随机化时点、随访计划、结局评估窗口都被预先规定。于是很多人形成一种经验:只要是 RCT,因果就"天然成立";只要是观察性研究,加些协变量"调整"一下,也能接近因果。问题在于,这种经验把时间结构的重要性外包给了"设计标签",而不是把它内化为需要逐条核对的流程。现实中,即便是 RCT,也可能因为失访、交叉、依从性差、并行治疗等产生偏倚;而观察性研究如果能以"目标试验模拟"的方式明确起点、策略与随访,同样可以更接近可解释的因果问题。医学界缺的往往不是这些概念,而是把时间结构当作第一原则去组织数据与分析的习惯。
三、偏倚处理:把"加协变量"当作偏倚控制的全部,把可检验与不可检验的假设混为一谈
医学研究并不缺"控制偏倚"的意识。几乎所有观察性研究都会写:我们进行了多变量回归/倾向评分匹配/加权,以控制混杂。然而,偏倚处理的关键不是使用某个工具,而是对偏倚来源做可追溯的分解,并区分哪些假设可被数据支持,哪些只能依赖外部知识与敏感性分析。日常实践中,偏倚往往被简化成一句话:"我们调整了年龄、性别、合并症......因此结果更可靠。"这类表述的潜台词是:混杂可以被有限的可测协变量完全消除;测不全的部分要么不存在,要么可以忽略。
这里的落差主要体现在三点:
-
混杂与选择偏倚不区分。例如把纳入标准、失访机制、检测频率差异造成的系统性选择当作"协变量调整"可以解决的混杂问题,忽略了这些机制本身可能与结局相关并且与暴露相互作用。
-
对中介、碰撞变量、时间依赖协变量的处理随意。很多研究把"治疗后指标"(如某实验室值)纳入模型,试图"更充分调整",却可能引入碰撞偏倚或阻断因果路径,从而改变估计对象但不自知。
-
缺少敏感性与稳健性审计 。因果推断的现实前提之一是不可完全验证的:无未测混杂、正确模型形式、可交换性、正则性(positivity)等。流程化的因果工作会把这些前提显性化,并通过多种规格、负对照、界限分析或情景推演来量化"不确定性来自何处"。但在很多医学论文里,敏感性分析要么缺席,要么沦为"换个模型结果差不多"的仪式,无法回答读者真正关心的问题:需要多强的未测混杂才能推翻结论?是否存在某些亚组几乎没有对照可比性?结论对暴露定义和时间窗口有多敏感?
当偏倚处理被理解为"选择一个调整方法并完成计算",因果推断就从流程问题退化成软件问题:会不会跑模型、能不能匹配成功。结果是,研究的可信度更多来自"看起来做了很多统计",而不是来自"偏倚路径被逐项封堵或被量化"。
四、语言使用:结果写作在暗示因果,但讨论部分又用"相关"撤回责任
医学写作里常出现一种双重语言策略:标题和摘要用因果动词("降低""改善""促进"),方法与结果用关联性表达("与......相关"),讨论部分在需要时再补一句"不能推断因果"。这种做法在伦理上看似谨慎,但在知识生产上会造成更隐蔽的后果:研究既享受因果结论带来的影响力,又回避因果主张所要求的可审计义务。读者、媒体、指南撰写者往往只读到前半句,而后半句的免责声明并不会阻止研究被用作因果依据。
更关键的是,这种语言分裂反映了流程缺席:如果研究从一开始就以因果估计量为目标,并把识别假设、偏倚控制、敏感性分析放在台面上,那么论文完全可以明确自己在做什么因果比较、在什么假设下成立、在什么范围内可推广。相反,当研究只是事后把关联结果"翻译"为临床意义,语言就只能在"暗示"和"撤回"之间摇摆。
五、为何医学界长期停留在"靠随机化或简单矫正即可因果"的模式?
这并不是医学界"反智"或"忽视方法",而是多重制度与认知结构共同作用的结果。
第一,RCT 的制度地位过高,导致"因果 = 随机化"的等式深入人心。 随机化确实是强有力的识别手段,但它解决的是起点处的可比性问题,并不自动解决依从性、失访、交叉、测量误差与推广性。更重要的是,许多临床问题根本无法或不适合做 RCT,于是观察性研究被迫承担因果解释的任务,但其工作流程却仍停留在"向 RCT 看齐的修辞",而不是建立自己的审计体系。
第二,医学训练与发表激励更偏向"结果导向",弱化了对识别假设的公开承诺。 在临床研究的日常评价中,显著性、样本量、模型复杂度往往比"识别策略是否明确、假设是否可审计、偏倚是否被量化"更容易被打分。流程化因果推断需要在论文中占用篇幅、暴露不确定性、呈现可能推翻结论的敏感性边界,这在竞争性发表环境里并不讨好。
第三,跨学科分工让因果推断被外包为"统计支持",而不是研究者自身的核心责任。 很多团队把统计学家视为"把数据跑出来的人",而不是与临床专家共同定义估计量、共同审计偏倚假设的合作者。结果就是:临床问题在前端定义得很宽泛,统计在后端做"能做的调整",中间缺少把问题翻译成因果对象的关键步骤。
第四,真实世界数据的可得性迅速提升,但数据生成机制的复杂性同样提升。 电子病历、医保数据、队列数据库看似"样本巨大",容易让人相信"数据足够大就能抵消偏倚"。但偏倚不是噪声,不能靠规模自然平均掉;相反,规模越大,越容易把系统性偏倚估计得"非常精确"。当工具与算力变得廉价,流程意识反而更容易缺席。
第五,医学决策文化偏好"可行动的结论",不喜欢"条件化的结论"。 因果推断的诚实表达往往是条件句:在这些假设下、对这类人群、在这个策略定义和时间窗口中,效果如何。临床实践当然需要行动,但行动并不等于简化;真正负责的行动需要知道结论依赖哪些条件、在哪些场景会失效。遗憾的是,很多传播链条(媒体、指南解读、学术报告)会把条件句压缩成口号式因果。
六、不是否定现有实践:缺的不是方法,而是"把因果当作可审计流程"的意识
指出落差,并不意味着医学研究整体"不可靠"。恰恰相反,医学研究积累的规范(方案注册、CONSORT/STROBE 报告、数据共享、预设分析计划)为因果流程化提供了良好基础。问题在于,这些规范常被当作合规清单,而不是围绕因果问题组织起来的审计链条。真正的改进方向也不在于"再学几个更高级的模型",而在于把因果推断当作一套必须交代的流程:
- 前端:把临床问题定型为明确的策略比较与估计量(谁在何时开始何种干预,与何种对照相比,评估何时的结局)。
- 中段:显性化识别假设与偏倚路径(哪些变量是混杂、哪些是中介/碰撞、时间依赖如何处理,哪些假设不可验证)。
- 后端:把不确定性量化为可审计的敏感性结论(多强的未测混杂会改变结论,哪些人群缺乏可比性,结果对时间窗口与暴露定义是否稳健)。
- 表达:用与估计量一致的语言呈现结论,而不是在标题暗示因果、在讨论撤回责任。
当因果成为流程,研究就更像工程:每一步都能被复核、被质疑、被替代。即便结论最终仍有不确定性,这种不确定性也是"可定位"的,而不是被隐藏在一个回归表格背后。
医学研究确实在追求因果,但很多时候,它追求的是因果的社会功能------说服与行动------而不是因果的审计逻辑。要缩小落差,不必推倒重来,更不必把每个研究都变成方法学论文;只需要把一个基本原则重新放回中心:**因果不是一种态度,而是一套需要逐步交代、逐点验收的工作流程。**当医学界把这套流程视为研究质量的一部分,而非方法学"加分项",因果推断才会从表态走向实践。