为什么相关性不能用于结算

先直接回答这个问题：因为相关性无法排除"本来就更健康的人更倾向于参与干预"这个事实。

这句话很简单，但它的后果是毁灭性的。全球每年有数以千亿计的资金投入预防医疗和健康管理，但其中绝大多数无法向支付方证明自己真的有效。不是因为这些项目无效，而是因为它们用错了证明方式——用相关性试图说服一个只接受因果性的审查者。

问题从哪里开始

想象一个场景：某保险公司为 5000 名投保人提供了为期一年的心血管健康管理服务。项目结束后，参与项目的人平均心血管风险评分下降了 12%，明显优于未参与人群的 3%。

这个数据看起来令人信服。但保险公司的精算部门问了一个致命的问题：

精算师的问题：参与项目的这批人，在参与之前就比不参与的人更健康吗？如果是，那 12% vs 3% 的差距，有多少是干预造成的，有多少只是因为"更健康的人参与了项目"？

这个问题没有办法用相关性数据回答。这就是问题所在。

选择偏倚：相关性证据的致命漏洞

选择偏倚（Selection Bias）是社会科学和医学研究中最古老、也最难绕过的陷阱之一。在健康管理场景中，它的表现极为典型：

主动参与健康管理项目的人，往往具备以下特征：更强的健康意识、更高的教育水平、更规律的生活习惯、更好的经济条件支撑健康投入、更低的吸烟率和更高的运动频率。

换句话说，参与者在参与之前就已经更健康了。这不是假设，而是在几乎所有真实世界健康管理项目中都能观察到的一致现象。

真实世界案例模式

参与 vs 未参与的基线差异（典型数据）

在未经匹配的对比中：干预组平均年龄 41 岁、不吸烟率 78%、有规律运动习惯 54%；对照组平均年龄 46 岁、不吸烟率 61%、有规律运动习惯 32%。两组在干预开始之前就已经存在显著差异。这意味着即使干预完全无效，参与者也会因为基线更好而在随访中表现更优。

当你用这两组人的健康结果做对比，得到的差异里，有相当一部分来自这些预存的基线差异，而非干预本身。这就是选择偏倚。

为什么支付方不接受相关性

支付体系（医保、商业保险、企业雇主）的核心逻辑是：只为真实发生的、可归因的效果付钱。

在传统医疗结算中，这很容易实现：患者有诊断，有处方，有检查单，有治疗记录。支付方核实这些记录，然后付款。逻辑是线性的，因果链是清晰的。

但在预防医疗结算中，支付方面对的问题完全不同：他们需要判断"如果没有这个干预，健康结果会更差吗？差多少？"这是一个反事实推断问题，不是记录核查问题。

❌ 相关性证据（不可接受）

参与干预的人，健康结果比未参与的人好 X%。

问题：好的原因是干预，还是参与者本来就更健康？无法区分。

✅ 因果证据（可接受）

在排除基线差异后，干预组相比特征相近的对照组，健康结果真实改善了 X%（ATT，置信区间 Y-Z）。

这个差异在统计意义上可归因于干预本身。

相关性证据回答的是"谁更健康"，因果证据回答的是"为什么更健康"。支付体系只关心后者。

为什么不直接做随机对照试验

读到这里，你可能会想：既然相关性不行，那做随机对照试验（RCT）不就解决了吗？RCT 通过随机分配彻底消除选择偏倚，是因果推断的黄金标准。

理论上是的。但在真实世界健康管理场景中，RCT 面临三个根本性障碍：

伦理问题

你无法随机分配一半已知高危患者"不接受任何干预"。这在医学伦理上不可接受。

时间和成本

心血管预防干预的效果需要数年才能在临床结局（心梗、卒中）上体现。一个严格的 RCT 可能需要 5-10 年和数亿资金。支付体系等不了这么久。

外部效度问题

RCT 的受控环境和严格入组标准，使其结论难以直接外推到真实世界中复杂、异质的患者群体。

这就是为什么 FDA 和 NMPA 都在积极推动真实世界证据（RWE）框架——在 RCT 不可行的场景下，需要一套严谨但可操作的替代方法论。PSM 正是这套框架中最核心的工具之一。

PSM 如何跨越这道鸿沟

倾向评分匹配（PSM，Propensity Score Matching）的核心思路是：如果我们无法随机分配，那就在已有数据中"人工构造"一个尽可能可比的对照组。

具体来说，PSM 分三步：

计算倾向评分

对每位患者（干预组和对照组），基于年龄、性别、BMI、基线风险、吸烟史等协变量，用逻辑回归估计"该患者接受干预的概率"——即倾向评分。

按评分配对

对干预组中每个人，在对照组中找到倾向评分最相近的人配对。配对后检验所有协变量的标准化均值差（SMD），要求 SMD < 0.1，确认两组特征已充分均衡。

估计因果效应

在配对样本上计算干预组和对照组的健康结果差异，得到 ATT（平均处理效应）及 Bootstrap 置信区间。这个差异已经排除了可观测混杂因素，具有因果解释力。

# PSM 核心逻辑（简化表示） P(接受干预 | 年龄, BMI, 血压, 吸烟史, ...) → 倾向评分 # 配对后的因果效应估计 ATT = E[健康结果(干预) - 健康结果(不干预) | 已接受干预] # 配对质量检验 SMD = |μ干预 - μ对照| / √((σ²干预 + σ²对照)/2) < 0.1 → 匹配合格

配对前，两组在年龄、吸烟率、基线风险上存在显著差异（SMD > 0.2）。配对后，这些差异缩小到统计上不显著的水平（SMD < 0.1）。此时观察到的健康结果差异，才是真正意义上可归因于干预的效果。

PSM 的局限：诚实地说

PSM 不是银弹。它能控制已观测到的混杂因素，但无法控制未观测到的混杂因素——比如患者的健康意识、家庭支持、心理状态。这是所有观察性研究的共同局限。

ReHealth Core 的处理方式：在所有生成的可结算证据报告中，我们明确声明 PSM 的方法论局限，并建议将其作为补充性证据使用，而非替代 RCT。同时，我们通过持续扩大多中心数据来源，降低未观测混杂对结论的潜在影响。

这种透明度不是弱点，而是必要条件。支付体系的审查者很清楚方法论的局限，一份诚实声明局限性的报告，比一份过度声称的报告更可信。

回到最初的问题

那个保险公司的例子，如果用 PSM 重新分析会怎样？

PSM 会从未参与项目的人群中，找到与每位参与者在年龄、性别、基线风险、吸烟史、BMI 等特征上尽量相近的人配对。配对完成、SMD 检验通过后，再比较两组的健康结果变化。

也许原来的 12% vs 3% 的差距，在 PSM 之后变成了 7% vs 3%（ATT = 4%，p < 0.01）。数字变小了，但这 4% 才是真正可归因于干预的效果——才是支付方可以接受、可以据此决策的数字。

核心结论

相关性告诉你"参与者更健康"，因果性告诉你"干预让参与者更健康了多少"。支付体系只为后者付钱。预防医疗商业化的核心瓶颈不是干预是否有效，而是能否用支付方接受的方式证明有效。这道方法论鸿沟，只有因果推断工具能跨越。

常见问题

为什么相关性不能用于预防医疗结算？

因为参与健康管理项目的人本身就比不参与的人更健康（选择偏倚）。用简单相关性无法区分是干预本身有效，还是本来就更健康的人参与了干预。支付体系需要因果证据——即在排除基线差异后，干预组相比对照组真实改善了多少。

什么是选择偏倚？它如何影响预防医疗评估？

选择偏倚是指参与某项干预的人群，在参与前就已经与未参与人群存在系统性差异。在健康管理场景中，选择参与项目的人往往具有更强的健康意识、更好的经济条件、更规律的生活习惯。直接比较参与者和非参与者的健康结果，看到的"效果"很大程度上来自这些预存差异，而非干预本身。

PSM 如何解决相关性问题？

PSM 通过在对照组中找到与干预组在年龄、性别、基线风险等可观测特征上尽量相似的人进行配对，从而在统计上模拟随机分配的效果。配对后两组的基线特征差异（SMD）应降至 0.1 以下，此时的组间健康结果差异（ATT）才具有因果解释力，可以被支付体系接受作为结算依据。

问题从哪里开始

选择偏倚：相关性证据的致命漏洞

参与 vs 未参与的基线差异（典型数据）

为什么支付方不接受相关性

为什么不直接做随机对照试验

伦理问题

时间和成本

外部效度问题

PSM 如何跨越这道鸿沟

计算倾向评分

按评分配对

估计因果效应

PSM 的局限：诚实地说

回到最初的问题

常见问题

为什么相关性不能用于预防医疗结算？

什么是选择偏倚？它如何影响预防医疗评估？

PSM 如何解决相关性问题？

延伸阅读