为什么简单对比不能证明因果
直觉上,评估干预效果似乎很简单:比较参与干预的人和没参与的人,看谁更健康。但这个逻辑有一个根本性漏洞:参与健康管理项目的人,本来就比不参与的人更健康、更注重健康。
这叫做选择偏倚(Selection Bias)。如果不消除它,任何干预效果的估计都会被严重高估。
具体例子:某企业推出员工健康管理计划。参与者平均年龄42岁,不吸烟,有规律运动习惯。非参与者平均年龄45岁,吸烟率30%,久坐比例更高。一年后参与者心血管风险明显低于非参与者——但这个差异,究竟有多少是干预造成的,有多少是因为参与者本来就更健康?
PSM正是为解决这个问题而设计的。它不试图让人们随机参与(这在真实世界中往往不可行),而是用统计方法从已有数据中"模拟"出一个可比较的对照组。
匹配前:两组不可比
匹配后:两组特征相近
PSM的三步工作原理
计算每位患者的"干预倾向评分"
对每位患者(干预组和对照组),基于其年龄、性别、BMI、基线风险评分、吸烟状态等协变量,使用逻辑回归模型估计"该患者在其特征下接受干预的概率"。
这个概率,就是倾向评分(Propensity Score)。倾向评分将多维度的患者特征压缩成一个单一数字,使后续配对成为可能。
P(T=1 | X) = logistic(β₀ + β₁·age + β₂·BMI + β₃·risk_score + ...)将倾向评分相近的患者配对
对干预组中的每位患者,在对照组中找到倾向评分最相近的患者作为"匹配对"(最近邻匹配)。通过设置卡钳(caliper,通常为倾向评分标准差的0.2倍),确保配对不过于勉强。
配对完成后,检验匹配质量:计算所有协变量的标准化均值差(SMD),要求 SMD < 0.1。
SMD = |μ₁ - μ₀| / √((σ₁² + σ₀²)/2) < 0.1估计因果效应(ATT)
在配对成功的样本上,比较干预组和匹配对照组的健康结果差异,得到平均处理效应(ATT,Average Treatment Effect on the Treated)。
使用Bootstrap重采样计算置信区间,评估估计的稳定性和统计显著性。
ATT = E[Y(1) - Y(0) | T=1] ≈ mean(Y_treated) - mean(Y_matched_control)配对质量是关键:PSM的可信度取决于匹配质量。ReHealth Core要求所有关键协变量的匹配后SMD均 < 0.1,并在报告中完整展示匹配前后的差异,让支付方可以独立验证。
PSM的适用条件与局限性
PSM是一个强大但有假设前提的方法。ReHealth Core在所有可结算证据报告中明确声明以下条件:
条件可忽略性(Conditional Ignorability)
在控制了所有协变量之后,干预分配与潜在结局无关。换句话说:影响干预分配的因素都被纳入了倾向评分模型。如果存在重要的未测量混杂因素(如患者的健康意识、家庭支持),PSM无法控制。
重叠性(Overlap / Common Support)
干预组和对照组在倾向评分分布上存在重叠——即对于每个干预组患者,对照组中都存在特征相近的人可以配对。如果两组特征差异过大,PSM无法完成有效匹配。ReHealth Core会对未能成功匹配的样本发出预警。
无法控制未观测混杂
PSM只能控制数据中存在的可观测协变量。相比随机对照试验(RCT),PSM是次优的因果推断方法。ReHealth Core在所有报告中明确说明这一局限,并建议将PSM证据作为补充性证据使用,而非替代RCT。
ATT ≠ ATE(总体平均处理效应)
PSM估计的是"干预组"的平均处理效应(ATT),而非总体人群的平均处理效应(ATE)。这意味着结论适用于与干预组特征相似的人群,不能直接外推到所有人。
PSM输出指标解读
理解PSM报告的核心输出,有助于支付方正确使用可结算证据:
| 指标 | 含义 | 判读标准 |
|---|---|---|
| ATT | 干预组平均处理效应。干预相比不干预平均产生的健康变化量。 | 方向性(负值代表改善)+ 置信区间不过零 = 显著效应 |
| 95% CI | ATT的95%置信区间。反映估计的不确定性。 | 区间不含零 = 统计显著(p < 0.05) |
| SMD(匹配后) | 标准化均值差。衡量配对后两组的可比性。 | < 0.1 = 匹配质量良好 |
| SMD(匹配前) | 匹配前两组的原始差异。越大说明选择偏倚越严重。 | > 0.2 = 原始偏倚较大,PSM必要性更高 |
| 匹配率 | 干预组中成功配对的比例。 | > 80% = 重叠性良好 |
| Bootstrap SE | Bootstrap标准误。反映ATT估计在重采样下的稳定性。 | 越小越稳定,用于计算p值 |
PSM在ReHealth Core中的工程化实现
ReHealth Core将PSM方法从学术研究工具转变为可在真实业务场景中自动化运行的工程系统,核心创新在于以下三点:
1. 与风险预测模型的原生集成
ReHealth Core的风险预测模型(AUC 0.839)同时为PSM提供高质量的基线风险评分作为协变量,避免了独立数据清洗和特征工程的重复工作。风险评分本身就是最重要的倾向评分协变量之一。
2. 多中心联邦PSM
在保障患者数据不出域的前提下,通过联邦学习框架支持跨机构的PSM分析——每家机构独立计算本地倾向评分和匹配结果,聚合后生成多中心因果证据。这是目前唯一能在医疗数据合规约束下实现大样本PSM的方案。
3. 标准化报告输出
PSM分析结果自动生成符合NMPA RWE指南格式要求的可结算证据报告(PDF + 结构化JSON),包含完整的方法说明、匹配质量评估、效应量报告和局限性声明,可直接提交给支付方。
技术定位:ReHealth Core不是PSM论文,而是PSM流水线。从数据接入、匹配执行、质量审核到报告生成,全流程自动化,平均接入周期 < 2周,支持按需API调用。