先直接回答这个问题:因为相关性无法排除"本来就更健康的人更倾向于参与干预"这个事实。
这句话很简单,但它的后果是毁灭性的。全球每年有数以千亿计的资金投入预防医疗和健康管理,但其中绝大多数无法向支付方证明自己真的有效。不是因为这些项目无效,而是因为它们用错了证明方式——用相关性试图说服一个只接受因果性的审查者。
问题从哪里开始
想象一个场景:某保险公司为 5000 名投保人提供了为期一年的心血管健康管理服务。项目结束后,参与项目的人平均心血管风险评分下降了 12%,明显优于未参与人群的 3%。
这个数据看起来令人信服。但保险公司的精算部门问了一个致命的问题:
精算师的问题:参与项目的这批人,在参与之前就比不参与的人更健康吗?如果是,那 12% vs 3% 的差距,有多少是干预造成的,有多少只是因为"更健康的人参与了项目"?
这个问题没有办法用相关性数据回答。这就是问题所在。
选择偏倚:相关性证据的致命漏洞
选择偏倚(Selection Bias)是社会科学和医学研究中最古老、也最难绕过的陷阱之一。在健康管理场景中,它的表现极为典型:
主动参与健康管理项目的人,往往具备以下特征:更强的健康意识、更高的教育水平、更规律的生活习惯、更好的经济条件支撑健康投入、更低的吸烟率和更高的运动频率。
换句话说,参与者在参与之前就已经更健康了。这不是假设,而是在几乎所有真实世界健康管理项目中都能观察到的一致现象。
参与 vs 未参与的基线差异(典型数据)
在未经匹配的对比中:干预组平均年龄 41 岁、不吸烟率 78%、有规律运动习惯 54%;对照组平均年龄 46 岁、不吸烟率 61%、有规律运动习惯 32%。两组在干预开始之前就已经存在显著差异。这意味着即使干预完全无效,参与者也会因为基线更好而在随访中表现更优。
当你用这两组人的健康结果做对比,得到的差异里,有相当一部分来自这些预存的基线差异,而非干预本身。这就是选择偏倚。
为什么支付方不接受相关性
支付体系(医保、商业保险、企业雇主)的核心逻辑是:只为真实发生的、可归因的效果付钱。
在传统医疗结算中,这很容易实现:患者有诊断,有处方,有检查单,有治疗记录。支付方核实这些记录,然后付款。逻辑是线性的,因果链是清晰的。
但在预防医疗结算中,支付方面对的问题完全不同:他们需要判断"如果没有这个干预,健康结果会更差吗?差多少?"这是一个反事实推断问题,不是记录核查问题。
参与干预的人,健康结果比未参与的人好 X%。
问题:好的原因是干预,还是参与者本来就更健康?无法区分。
在排除基线差异后,干预组相比特征相近的对照组,健康结果真实改善了 X%(ATT,置信区间 Y-Z)。
这个差异在统计意义上可归因于干预本身。
相关性证据回答的是"谁更健康",因果证据回答的是"为什么更健康"。支付体系只关心后者。
为什么不直接做随机对照试验
读到这里,你可能会想:既然相关性不行,那做随机对照试验(RCT)不就解决了吗?RCT 通过随机分配彻底消除选择偏倚,是因果推断的黄金标准。
理论上是的。但在真实世界健康管理场景中,RCT 面临三个根本性障碍:
伦理问题
你无法随机分配一半已知高危患者"不接受任何干预"。这在医学伦理上不可接受。
时间和成本
心血管预防干预的效果需要数年才能在临床结局(心梗、卒中)上体现。一个严格的 RCT 可能需要 5-10 年和数亿资金。支付体系等不了这么久。
外部效度问题
RCT 的受控环境和严格入组标准,使其结论难以直接外推到真实世界中复杂、异质的患者群体。
这就是为什么 FDA 和 NMPA 都在积极推动真实世界证据(RWE)框架——在 RCT 不可行的场景下,需要一套严谨但可操作的替代方法论。PSM 正是这套框架中最核心的工具之一。
PSM 如何跨越这道鸿沟
倾向评分匹配(PSM,Propensity Score Matching)的核心思路是:如果我们无法随机分配,那就在已有数据中"人工构造"一个尽可能可比的对照组。
具体来说,PSM 分三步:
计算倾向评分
对每位患者(干预组和对照组),基于年龄、性别、BMI、基线风险、吸烟史等协变量,用逻辑回归估计"该患者接受干预的概率"——即倾向评分。
按评分配对
对干预组中每个人,在对照组中找到倾向评分最相近的人配对。配对后检验所有协变量的标准化均值差(SMD),要求 SMD < 0.1,确认两组特征已充分均衡。
估计因果效应
在配对样本上计算干预组和对照组的健康结果差异,得到 ATT(平均处理效应)及 Bootstrap 置信区间。这个差异已经排除了可观测混杂因素,具有因果解释力。
配对前,两组在年龄、吸烟率、基线风险上存在显著差异(SMD > 0.2)。配对后,这些差异缩小到统计上不显著的水平(SMD < 0.1)。此时观察到的健康结果差异,才是真正意义上可归因于干预的效果。
PSM 的局限:诚实地说
PSM 不是银弹。它能控制已观测到的混杂因素,但无法控制未观测到的混杂因素——比如患者的健康意识、家庭支持、心理状态。这是所有观察性研究的共同局限。
ReHealth Core 的处理方式:在所有生成的可结算证据报告中,我们明确声明 PSM 的方法论局限,并建议将其作为补充性证据使用,而非替代 RCT。同时,我们通过持续扩大多中心数据来源,降低未观测混杂对结论的潜在影响。
这种透明度不是弱点,而是必要条件。支付体系的审查者很清楚方法论的局限,一份诚实声明局限性的报告,比一份过度声称的报告更可信。
回到最初的问题
那个保险公司的例子,如果用 PSM 重新分析会怎样?
PSM 会从未参与项目的人群中,找到与每位参与者在年龄、性别、基线风险、吸烟史、BMI 等特征上尽量相近的人配对。配对完成、SMD 检验通过后,再比较两组的健康结果变化。
也许原来的 12% vs 3% 的差距,在 PSM 之后变成了 7% vs 3%(ATT = 4%,p < 0.01)。数字变小了,但这 4% 才是真正可归因于干预的效果——才是支付方可以接受、可以据此决策的数字。
相关性告诉你"参与者更健康",因果性告诉你"干预让参与者更健康了多少"。支付体系只为后者付钱。预防医疗商业化的核心瓶颈不是干预是否有效,而是能否用支付方接受的方式证明有效。这道方法论鸿沟,只有因果推断工具能跨越。
常见问题
为什么相关性不能用于预防医疗结算?
因为参与健康管理项目的人本身就比不参与的人更健康(选择偏倚)。用简单相关性无法区分是干预本身有效,还是本来就更健康的人参与了干预。支付体系需要因果证据——即在排除基线差异后,干预组相比对照组真实改善了多少。
什么是选择偏倚?它如何影响预防医疗评估?
选择偏倚是指参与某项干预的人群,在参与前就已经与未参与人群存在系统性差异。在健康管理场景中,选择参与项目的人往往具有更强的健康意识、更好的经济条件、更规律的生活习惯。直接比较参与者和非参与者的健康结果,看到的"效果"很大程度上来自这些预存差异,而非干预本身。
PSM 如何解决相关性问题?
PSM 通过在对照组中找到与干预组在年龄、性别、基线风险等可观测特征上尽量相似的人进行配对,从而在统计上模拟随机分配的效果。配对后两组的基线特征差异(SMD)应降至 0.1 以下,此时的组间健康结果差异(ATT)才具有因果解释力,可以被支付体系接受作为结算依据。