PSM因果归因 — 倾向评分匹配如何工作

Q: PSM和随机对照试验（RCT）有什么区别？

RCT通过随机分配确保干预组和对照组在所有特征上（包括未观测特征）均可比，是因果推断的黄金标准。PSM是在无法随机分配的真实世界场景中的最佳替代方案，通过统计匹配消除可观测混杂因素造成的选择偏倚。PSM的局限在于无法控制未观测到的混杂因素（如患者的健康意识）。ReHealth Core的做法是在报告中明确声明PSM的适用范围和局限性。

Q: 什么是SMD（标准化均值差）？如何判断匹配质量？

SMD（Standardized Mean Difference，标准化均值差）是衡量干预组和对照组在某个变量上差异程度的标准化指标。SMD < 0.1通常被认为匹配质量良好，意味着两组在该变量上差异不显著。ReHealth Core在生成可结算证据报告时，要求所有匹配变量的匹配后SMD均 < 0.1，否则发出预警并建议扩大对照组池。

Q: ATT（平均处理效应）代表什么意思？

ATT（Average Treatment Effect on the Treated，处理组平均处理效应）是PSM输出的核心指标，代表的是：对于实际接受了干预的这批人，干预相比不干预平均产生了多大的健康效果差异。例如ATT = -0.087（心血管风险评分），意味着接受干预的这批人，平均而言，相比如果他们没有接受干预，心血管风险评分下降了0.087个单位。这是一个有因果解释力的估计，不是简单的前后对比。

Q: PSM归因在预防医疗中已有哪些应用先例？

PSM被广泛应用于真实世界药物疗效研究（如比较不同降压药物的长期效果）、医疗政策评估（如某医改措施对住院率的影响）、和健康管理项目评估（如企业健康管理项目对员工医疗费用的影响）。Lancet、NEJM、JAMA等顶级期刊均有大量采用PSM方法的研究发表。ReHealth Core将这一方法工程化，使其能够在真实业务场景中自动化运行。

为什么简单对比不能证明因果

直觉上，评估干预效果似乎很简单：比较参与干预的人和没参与的人，看谁更健康。但这个逻辑有一个根本性漏洞：参与健康管理项目的人，本来就比不参与的人更健康、更注重健康。

这叫做选择偏倚（Selection Bias）。如果不消除它，任何干预效果的估计都会被严重高估。

具体例子：某企业推出员工健康管理计划。参与者平均年龄42岁，不吸烟，有规律运动习惯。非参与者平均年龄45岁，吸烟率30%，久坐比例更高。一年后参与者心血管风险明显低于非参与者——但这个差异，究竟有多少是干预造成的，有多少是因为参与者本来就更健康？

PSM正是为解决这个问题而设计的。它不试图让人们随机参与（这在真实世界中往往不可行），而是用统计方法从已有数据中"模拟"出一个可比较的对照组。

匹配前：两组不可比

干预组：42岁，不吸烟，运动

干预组：38岁，BMI正常

干预组：44岁，无家族史

对照组：48岁，吸烟，不运动

对照组：52岁，超重

对照组：46岁，有家族史

→

匹配后：两组特征相近

干预组：44岁，轻度吸烟

对照组（已匹配）：45岁，轻度吸烟

干预组：38岁，BMI 24

对照组（已匹配）：37岁，BMI 25

✓ 现在两组的差异主要来自干预本身

PSM的三步工作原理

倾向评分

计算每位患者的"干预倾向评分"

对每位患者（干预组和对照组），基于其年龄、性别、BMI、基线风险评分、吸烟状态等协变量，使用逻辑回归模型估计"该患者在其特征下接受干预的概率"。

这个概率，就是倾向评分（Propensity Score）。倾向评分将多维度的患者特征压缩成一个单一数字，使后续配对成为可能。

P(T=1 | X) = logistic(β₀ + β₁·age + β₂·BMI + β₃·risk_score + ...)

统计配对

将倾向评分相近的患者配对

对干预组中的每位患者，在对照组中找到倾向评分最相近的患者作为"匹配对"（最近邻匹配）。通过设置卡钳（caliper，通常为倾向评分标准差的0.2倍），确保配对不过于勉强。

配对完成后，检验匹配质量：计算所有协变量的标准化均值差（SMD），要求 SMD < 0.1。

SMD = |μ₁ - μ₀| / √((σ₁² + σ₀²)/2) < 0.1

效应估计

估计因果效应（ATT）

在配对成功的样本上，比较干预组和匹配对照组的健康结果差异，得到平均处理效应（ATT，Average Treatment Effect on the Treated）。

使用Bootstrap重采样计算置信区间，评估估计的稳定性和统计显著性。

ATT = E[Y(1) - Y(0) | T=1] ≈ mean(Y_treated) - mean(Y_matched_control)

配对质量是关键：PSM的可信度取决于匹配质量。ReHealth Core要求所有关键协变量的匹配后SMD均 < 0.1，并在报告中完整展示匹配前后的差异，让支付方可以独立验证。

PSM的适用条件与局限性

PSM是一个强大但有假设前提的方法。ReHealth Core在所有可结算证据报告中明确声明以下条件：

必须满足

条件可忽略性（Conditional Ignorability）

在控制了所有协变量之后，干预分配与潜在结局无关。换句话说：影响干预分配的因素都被纳入了倾向评分模型。如果存在重要的未测量混杂因素（如患者的健康意识、家庭支持），PSM无法控制。

必须满足

重叠性（Overlap / Common Support）

干预组和对照组在倾向评分分布上存在重叠——即对于每个干预组患者，对照组中都存在特征相近的人可以配对。如果两组特征差异过大，PSM无法完成有效匹配。ReHealth Core会对未能成功匹配的样本发出预警。

已知局限

无法控制未观测混杂

PSM只能控制数据中存在的可观测协变量。相比随机对照试验（RCT），PSM是次优的因果推断方法。ReHealth Core在所有报告中明确说明这一局限，并建议将PSM证据作为补充性证据使用，而非替代RCT。

适用范围

ATT ≠ ATE（总体平均处理效应）

PSM估计的是"干预组"的平均处理效应（ATT），而非总体人群的平均处理效应（ATE）。这意味着结论适用于与干预组特征相似的人群，不能直接外推到所有人。

PSM输出指标解读

理解PSM报告的核心输出，有助于支付方正确使用可结算证据：

指标	含义	判读标准
ATT	干预组平均处理效应。干预相比不干预平均产生的健康变化量。	方向性（负值代表改善）+ 置信区间不过零 = 显著效应
95% CI	ATT的95%置信区间。反映估计的不确定性。	区间不含零 = 统计显著（p < 0.05）
SMD（匹配后）	标准化均值差。衡量配对后两组的可比性。	< 0.1 = 匹配质量良好
SMD（匹配前）	匹配前两组的原始差异。越大说明选择偏倚越严重。	> 0.2 = 原始偏倚较大，PSM必要性更高
匹配率	干预组中成功配对的比例。	> 80% = 重叠性良好
Bootstrap SE	Bootstrap标准误。反映ATT估计在重采样下的稳定性。	越小越稳定，用于计算p值

PSM在ReHealth Core中的工程化实现

ReHealth Core将PSM方法从学术研究工具转变为可在真实业务场景中自动化运行的工程系统，核心创新在于以下三点：

1. 与风险预测模型的原生集成

ReHealth Core的风险预测模型（AUC 0.839）同时为PSM提供高质量的基线风险评分作为协变量，避免了独立数据清洗和特征工程的重复工作。风险评分本身就是最重要的倾向评分协变量之一。

2. 多中心联邦PSM

在保障患者数据不出域的前提下，通过联邦学习框架支持跨机构的PSM分析——每家机构独立计算本地倾向评分和匹配结果，聚合后生成多中心因果证据。这是目前唯一能在医疗数据合规约束下实现大样本PSM的方案。

3. 标准化报告输出

PSM分析结果自动生成符合NMPA RWE指南格式要求的可结算证据报告（PDF + 结构化JSON），包含完整的方法说明、匹配质量评估、效应量报告和局限性声明，可直接提交给支付方。

技术定位：ReHealth Core不是PSM论文，而是PSM流水线。从数据接入、匹配执行、质量审核到报告生成，全流程自动化，平均接入周期 < 2周，支持按需API调用。

常见问题

PSM和随机对照试验（RCT）有什么区别？

RCT通过随机分配确保干预组和对照组在所有特征上均可比，是因果推断的黄金标准。PSM是在无法随机分配的真实世界场景中的最佳替代方案，通过统计匹配消除可观测混杂因素。PSM的局限在于无法控制未观测到的混杂因素。ReHealth Core在报告中明确声明PSM的适用范围和局限性。

什么是SMD？如何判断匹配质量？

SMD（标准化均值差）是衡量干预组和对照组在某个变量上差异程度的标准化指标。SMD < 0.1通常被认为匹配质量良好，意味着两组在该变量上差异不显著。ReHealth Core要求所有匹配变量的匹配后SMD均 < 0.1，否则发出预警并建议扩大对照组池。

ATT代表什么意思？

ATT（处理组平均处理效应）代表：对于实际接受了干预的这批人，干预相比不干预平均产生了多大的健康效果差异。例如ATT = -0.087（心血管风险评分），意味着接受干预的这批人，相比如果他们没有接受干预，心血管风险评分平均下降了0.087个单位。这是有因果解释力的估计，不是简单前后对比。

PSM归因在预防医疗中已有哪些应用先例？

PSM被广泛应用于真实世界药物疗效研究、医疗政策评估和健康管理项目评估。Lancet、NEJM、JAMA等顶级期刊均有大量采用PSM方法的研究发表。ReHealth Core将这一学术方法工程化，使其能够在真实业务场景中自动化运行，并生成符合监管要求的标准化可结算证据报告。

PSM 因果归因

为什么简单对比不能证明因果

匹配前：两组不可比

匹配后：两组特征相近

PSM的三步工作原理

计算每位患者的"干预倾向评分"

将倾向评分相近的患者配对

估计因果效应（ATT）

PSM的适用条件与局限性

条件可忽略性（Conditional Ignorability）

重叠性（Overlap / Common Support）

无法控制未观测混杂

ATT ≠ ATE（总体平均处理效应）

PSM输出指标解读

PSM在ReHealth Core中的工程化实现

1. 与风险预测模型的原生集成

2. 多中心联邦PSM

3. 标准化报告输出

常见问题

相关概念