整理：前门准则的三重证明

最近在折腾项目的时候碰到了这个知识点，查了不少资料，索性整理出来分享给大家。

前门准则（这里适用于已有后门准则基础的同学阅读）

前门准则的三重证明

前门准则的定义以及调整公式
前门准则的定义
前门准则的调整公式
从

T到

M到

T到

拆解两个干预分布的意义
P

(

∣

(

)

P(m|do(t))

P(m∣do(t))

(

∣

(

)

P(y|do(m))

P(y∣do(m))

三大假设为两个干预分布组合提供桥梁

一、

Modularity

Modularity（模块化）假设

二、可交换假设（在无混杂因素的前提下，潜在输出结果与是否干预无关）
三、

Interference

Interference（无干涉）假设（全体集合中每一个个体相互独立、互不影响）

综合看

(

∣

(

)

(

∣

(

)

P(m|do(t))P(y|do(m))

P(m∣do(t))P(y∣do(m))

综合看

∑

(

∣

(

)

(

∣

(

)

\sum_{m}P(m|do(t))P(y|do(m))

∑mP(m∣do(t))P(y∣do(m))

视角二：从因果图视角

先移除

(

)

do(t)

do(t)的作用，即在

‾

G_{\overline{T}}

GT下观察

M与

Y的联系

[观察

[

(

)

(

)

]

[do(t),do(m)]

[do(t),do(m)]的操纵图与

(

)

do(m)

do(m)的操纵图](#dotdomdom_99)

综合联系

视角三：从代数视角总结三大视角

前门准则的定义以及调整公式

前门准则的定义

当一系列变量集合

M满足一下条件时：

1. 所有从

T到

Y的因果路径都需要经过

M（也即，

M是

T对

Y因果效应的完全媒介）
2. 不存在从

T到

M未被阻断的后门路径
3. 所有从

M到

Y的后门路径都可以被

T阻断

则

M满足前门路径。

前门准则的调整公式

如果

、

M、T、Y

M、T、Y满足前门准则，则在

positivity

positivity（有效性）假设下：

(

∣

(

)

∑

(

∣

)

∑

(

∣

)

(

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{t}P(y|m,t)P(t)

P(y∣do(t))=∑mP(m∣t)∑tP(y∣m,t)P(t)

从

T到

M因果效应

当咱们研究从

T到

M因果效应时注意到，从

W到

Y和从

M到

Y形成了一个碰撞点

Y，这意味着

T到

M因果效应中天然不存在混杂，根据后门准则（用空调整集）得出：

(

∣

(

)

(

∣

)

P(m|do(t))=P(m|t)

P(m∣do(t))=P(m∣t)

从

M到

Y因果效应

当咱们研究从

M到

Y因果效应时注意到，从

M到

Y的后门路径可以在条件于

t的情况下被阻断，根据后门准则（用调整集

T）得出：

(

∣

(

)

∑

(

∣

)

(

)

P(y|do(m))=\sum_{t}P(y|m,t)P(t)

P(y∣do(m))=∑tP(y∣m,t)P(t)

从

T到

Y因果效应

前文根据后门准则，我么已经证明

(

∣

(

)

(

∣

)

P(m|do(t))=P(m|t)

P(m∣do(t))=P(m∣t)

(

∣

(

)

∑

(

∣

)

(

)

P(y|do(m))=\sum_{t}P(y|m,t)P(t)

P(y∣do(m))=∑tP(y∣m,t)P(t)

于是，前门调整公式可以写成更简洁的形式：

(

∣

(

)

∑

(

∣

(

)

(

∣

(

)

P(y|do(t))=\sum_{m}P(m|do(t))P(y|do(m))

P(y∣do(t))=∑mP(m∣do(t))P(y∣do(m))
接下来，咱们在三重视角下来探讨一下这两个干预分布为什么可以组合起来表示满足前门准则的干预分布。

视角一：从因果操作的语义出发

拆解两个干预分布的意义

P

(

∣

(

)

P(m|do(t))

P(m∣do(t))

T到

M的因果效应天然不存在混杂项

(

∣

(

)

P(m|do(t))

P(m∣do(t))即为对全体集合进行

T=t

T=t后，观测满足

M=m

M=m的子群在全体集合的概率分布（比重）

P

(

∣

(

)

P(y|do(m))

P(y∣do(m))

M到

Y的因果效应中存在

−

M-T-W-Y

M−T−W−Y的混杂项，但在

(

)

do(m)

do(m)后全部被阻断

(

∣

(

)

P(y|do(m))

P(y∣do(m))即为对全体集合进行

M=m

M=m后，观测满足

Y=y

Y=y的子群在全体集合的概率分布（比重）

这两个干预分布看似毫无关联，但在

M

o

d

u

l

a

r

i

t

y

Modularity

Modularity（模块化）假设、

N

o

No

No

I

n

f

e

r

e

n

c

e

Inference

Inference（无干涉）假设、可交换假设的基础上可以巧妙结合在一起。 下面我们将在这三大假设的基础上进行延申解构两个干预分布可以结合的原因。

三大假设为两个干预分布组合提供桥梁

一、

Modularity

Modularity（模块化）假设

干预

(

)

do(m)

do(m)只会改变

M的生成机制——切断所有指向

M的有向路径，而不改变其他所有变量的生成机制。于是，一旦我们干预

(

)

do(m)

do(m)，那么从

T到

M的联系消失，则从

T到

Y的间接影响随之消失。换句话说，

(

∣

(

)

P(y|do(m))

P(y∣do(m))这项本身已经是一个完全不受包括

T在内的任何混杂因素的影响，只由

M到

Y的因果效应决定的满足

Y=y

Y=y的子群在总体中的分布。

二、可交换假设（在无混杂因素的前提下，潜在输出结果与是否干预无关）

在潜在结果框架中，可交换假设指：个体的处理分配与潜在结果独立。形式上，

(

)

(

)

⊥

(Y(0), Y(1)) \perp T

(Y(0),Y(1))⊥T
由上文可知，

(

∣

(

)

P(y|do(m))

P(y∣do(m))这项本身已经是一个完全不受包括

T在内的任何混杂因素的影响，只由

M到

Y的因果效应决定的满足

Y=y

Y=y的子群在总体中的分布。
可交换假设意味着：在干预

d

o

(

m

)

do(m)

do(m) 下，不同个体的潜在结果

Y

(

m

)

Y(m)

Y(m)是可交换的（

e

x

c

h

a

n

g

e

a

b

l

e

exchangeable

exchangeable）——即个体的处理分配与潜在结果独立。
进而，对任意个体 i，

P

(

Y

i

(

m

)

=

y

)

P(Y_i(m)=y)

P(Yi(m)=y)都相同，且等于群体在

d

o

(

m

)

do(m)

do(m)后
满足 Y=y 的比例。
可交换假设（Exchangeability）是潜在结果框架的基础假设，它保证在无混杂条件下，观测数据可以替代干预数据。在前门准则中，它体现在

(

∣

(

)

(

∣

)

P(y∣do(m))=P(y∣m)

P(y∣do(m))=P(y∣m)的合法性上——当 do(m) 切断了所有混杂路径后，观察

M=m

M=m的群体等价于干预

M=m

M=m的群体。

三、

Interference

Interference（无干涉）假设（全体集合中每一个个体相互独立、互不影响）

当我们按

M的不同取值对全体集合进行划分（划分的子群记为：

M_k

Mk，各子群总和为全体集合且子群之间两两互斥）时，每个子群中满足

Y=y

Y=y的概率分布互不影响。也即，若我们对不同子群施加相对应的

(

)

do(m_k)

do(mk)时，各个群体中满足

Y=y

Y=y的概率分布和其他子群无关，仅仅与该群体所受的干预无关。

若我们对全体进行

T=t

T=t干预后，则我们可以观测到全体中

M的不同取值。在此基础上，我们对全体集合按观测到的

M的不同取值进行划分。由于各个个体的不干涉，于是每个划分之间也不会互相干涉。此时，若对不同划分施加相对应的

(

)

do(m_k)

do(mk)，则不同划分展现的

Y=y

Y=y的概率分布只与该划分的群体内关于

M的属性以及干预状况有关。又由于在可交换假设下拿到的总群体中任何一个个体在干预

(

)

do(m)

do(m)满足

Y=y

Y=y的概率相同且等于群体在

(

)

do(m)

do(m)后满足

Y=y

Y=y的子群在总体中的分布，因此，可以觉得不同划分展现的

Y

=

y

Y=y

Y=y的概率分布只与干预状况有关。因此，我们对不同划分施加相对应

d

o

(

m

k

)

do(m_k)

do(mk)干预后

y

y

y的分布按其划分比重为权重相叠加拿到全局满足

Y

=

y

Y=y

Y=y的概率分布：

P

(

y

∣

d

o

(

t

)

)

=

∑

k

P

(

M

k

∣

d

o

(

t

)

)

⋅

P

(

y

∣

d

o

(

m

k

)

)

P(y|do(t)) = \sum_k P(M_k|do(t)) \cdot P(y|do(m_k))

P(y∣do(t))=∑kP(Mk∣do(t))⋅P(y∣do(mk))

假设作用在前门调整中的体现

Modularity

Modularity保证干预的局部性

(

)

do(m)

do(m) 只改变

M，不影响

→

M→Y

M→Y 的机制可交换保证观测可替代干预

(

∣

(

)

(

∣

)

P(y∣do(m))=P(y∣m)

P(y∣do(m))=P(y∣m)（无混杂时）无干涉保证子群可加不同 M=m 子群的 Y 分布可以加权组合

三大假设各司其职：Modularity 定义了’干预’的含义，可交换假设保证了’观察’可以替代’干预’，无干涉假设保证了’部分’可以组合成’整体’。三者共同支撑起前门调整的合法性。

综合看

(

∣

(

)

(

∣

(

)

P(m|do(t))P(y|do(m))

P(m∣do(t))P(y∣do(m))

不与

(

∣

(

)

P(m|do(t))

P(m∣do(t))前的

(

∣

(

)

P(y|do(m))

P(y∣do(m))视为：对全体集合进行

M=m

M=m后，观测满足

Y=y

Y=y的子群在全体集合的概率分布（比重）。

(

∣

(

)

P(m|do(t))

P(m∣do(t))前的

(

∣

(

)

P(y|do(m))

P(y∣do(m))视为：只看在全体集合进行

T=t

T=t后后满足

M=m

M=m的群体中

y的分布。

综合看

∑

(

∣

(

)

(

∣

(

)

\sum_{m}P(m|do(t))P(y|do(m))

∑mP(m∣do(t))P(y∣do(m))

可以视为：将所有按

M的划分中满足

Y=y

Y=y的分布加权求和。又由于所有划分都是在

T=t

T=t干预下，总体按

M的自然响应分布

(

∣

(

)

P(m|do(t))

P(m∣do(t))进行的。则该加权求和等价于对在

T=t

T=t干预下全体满足

Y=y

Y=y的分布。即：

(

∣

(

)

∑

(

∣

(

)

(

∣

(

)

P(y|do(t))=\sum_{m}P(m|do(t))P(y|do(m))

P(y∣do(t))=∑mP(m∣do(t))P(y∣do(m))

因此，前门调整将

T=t

T=t的总效应分解为从

T到

M的因果效应X

M到

Y的因果效应

视角二：从因果图视角

核心论证：

(

∣

(

)

(

∣

(

)

(

∣

)

P(y|do(t),m)=P(y|do(m))=P(y|m)

P(y∣do(t),m)=P(y∣do(m))=P(y∣m)

先移除

(

)

do(t)

do(t)的作用，即在

‾

G_{\overline{T}}

GT下观察

M与

Y的联系

由于

M与

Y的联系仅有从

M到

Y的因果效应
于是，在

‾

G_{\overline{T}}

GT下，

(

∣

(

)

(

∣

)

(

)

P(y|do(m))=P(y|m) (1)

P(y∣do(m))=P(y∣m)(1)
观察

(

)

do(t)

do(t)下的操纵图和

‾

G_{\overline{T}}

GT，在

Modularity

Modularity（模块化）假设下可以得出：在

(

)

do(t)

do(t)条件下，

M与

Y有相同的分布。则在图

G中，

(

∣

(

)

(

)

(

∣

(

)

(

)

P(y|do(t),do(m))=P(y|do(t),m) (2)

P(y∣do(t),do(m))=P(y∣do(t),m)(2)

观察

[

(

)

(

)

]

[do(t),do(m)]

[do(t),do(m)]的操纵图与

(

)

do(m)

do(m)的操纵图

在两个操作图下，输入

Y的因果链路只有从

M到

Y且都不受混杂项影响。因此，其操作图下对应干预分布等价（因果图是生成机制，概率分布是其投影）
则在图

G中，

(

∣

(

)

(

)

(

∣

(

)

(

)

P(y|do(t),do(m))=P(y|do(m)) (3)

P(y∣do(t),do(m))=P(y∣do(m))(3)
根据后门调整公式，在空调整集下，

(

∣

(

)

(

∣

)

(

)

P(y|do(m))=P(y|m) (4)

P(y∣do(m))=P(y∣m)(4)
由

(

)

(

)

(

)

(2)(3)(4)

(2)(3)(4)得：
在图

G中，

(

∣

)

(

∣

(

)

(

)

P(y|m)=P(y|do(m)) (5)

P(y∣m)=P(y∣do(m))(5)

综合联系

根据边缘概率公式得出：

(

∣

(

)

∑

(

∣

(

)

P(y|do(t))=\sum_{m}P(m,y|do(t))

P(y∣do(t))=∑mP(m,y∣do(t))
根据条件概率跟随展开得出：

∑

(

∣

(

)

∑

(

∣

(

)

(

∣

)

\sum_{m}P(m,y|do(t))=\sum_{m}P(m|do(t))P(y|m)

∑mP(m,y∣do(t))=∑mP(m∣do(t))P(y∣m)
（注意：

(

∣

(

)

P(m|do(t))

P(m∣do(t))与普通的条件概率分布不同，是对全体进行干预

(

)

do(t)

do(t)下，满足

M=m

M=m的全体分布，而不是在满足

T=t

T=t条件的子群体中，满足

M=m

M=m的分布。前者可以视为

M=m

M=m在特殊情况下总体的特殊分布）
由根据公式

(

)

(5)

(5)可知：

∑

(

∣

(

)

∑

(

∣

(

)

(

∣

(

)

\sum_{m}P(m,y|do(t))=\sum_{m}P(m|do(t))P(y|do(m))

∑mP(m,y∣do(t))=∑mP(m∣do(t))P(y∣do(m))

视角三：从代数视角

根据贝叶斯网络分解我们可以知道：

(

)

(

)

(

∣

)

(

∣

)

(

∣

)

P(w,t,m,y)=P(w)P(t|w)P(m|t)P(y|w,m)

P(w,t,m,y)=P(w)P(t∣w)P(m∣t)P(y∣w,m)
根据截断分解公式我们可以知道：

(

∣

(

)

(

)

(

∣

)

(

∣

)

P(w,t,m,y|do(t))=P(w)P(m|t)P(y|w,m)

P(w,t,m,y∣do(t))=P(w)P(m∣t)P(y∣w,m)
接着，我们进一步对

、

w、m

w、m边缘概率进行求和可以拿到：

(

∣

(

)

∑

(

)

(

∣

)

(

∣

)

P(y|do(t))=\sum_{m}\sum_{w}P(w)P(m|t)P(y|w,m)

P(y∣do(t))=∑m∑wP(w)P(m∣t)P(y∣w,m)
调整求和顺序可到：

(

∣

(

)

∑

(

∣

)

∑

(

∣

)

(

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{w}P(y|w,m)P(w)

P(y∣do(t))=∑mP(m∣t)∑wP(y∣w,m)P(w)
全概率公式，

(

)

∑

(

∣

)

(

)

P(w)=\sum_{t}P(w|t)P(t)

P(w)=∑tP(w∣t)P(t)，则可得到：

(

∣

(

)

∑

(

∣

)

∑

(

∣

)

∑

(

∣

)

(

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{w}P(y|w,m)\sum_{t}P(w|t)P(t)

P(y∣do(t))=∑mP(m∣t)∑wP(y∣w,m)∑tP(w∣t)P(t)
观察图

G可知，

W与

M之间的联系只有

−

M-T-W

M−T−W(

−

M-Y-W

M−Y−W之间的联系被碰撞点

Y阻断)，因此，在

T条件下，

M与

W实现

−

d−分离，因此

(

∣

)

(

∣

)

P(w|t)=P(w|t,m)

P(w∣t)=P(w∣t,m)，因此：

(

∣

(

)

∑

(

∣

)

∑

(

∣

)

∑

(

∣

)

(

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{w}P(y|w,m)\sum_{t}P(w|t,m)P(t)

P(y∣do(t))=∑mP(m∣t)∑wP(y∣w,m)∑tP(w∣t,m)P(t)
继续调整求和顺序得出：

(

∣

(

)

∑

(

∣

)

∑

(

)

∑

(

∣

)

(

∣

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{t}P(t)\sum_{w}P(w|t,m)P(y|w,m)

P(y∣do(t))=∑mP(m∣t)∑tP(t)∑wP(w∣t,m)P(y∣w,m)
观察图

G可知，

Y与

T之间的联系有

−

T-W-Y

T−W−Y、

−

T-M-Y

T−M−Y，因此，在

W和

M条件下，

Y与

T现

−

d−分离。进而得到：

(

∣

)

(

∣

)

P(y|w,m)=P(y|w,m,t)

P(y∣w,m)=P(y∣w,m,t)，进一步可知：

(

∣

)

(

∣

)

(

∣

)

P(w|t,m)P(y|w,m,t)=P(w,y|t,m)

P(w∣t,m)P(y∣w,m,t)=P(w,y∣t,m)

(

∣

(

)

∑

(

∣

)

∑

(

)

∑

(

∣

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{t}P(t)\sum_{w}P(w,y|t,m)

P(y∣do(t))=∑mP(m∣t)∑tP(t)∑wP(w,y∣t,m)
接着，我们进一步对

w边缘概率进行求和可以得到：

(

∣

(

)

∑

(

∣

)

∑

(

)

(

∣

)

P(y|do(t))=\sum_{m}P(m|t)\sum_{t}P(t)P(y|t,m)

P(y∣do(t))=∑mP(m∣t)∑tP(t)P(y∣t,m)
前文根据后门准则，我么已经证明

(

∣

(

)

(

∣

)

P(m|do(t))=P(m|t)

P(m∣do(t))=P(m∣t)

(

∣

(

)

∑

(

∣

)

(

)

P(y|do(m))=\sum_{t}P(y|m,t)P(t)

P(y∣do(m))=∑tP(y∣m,t)P(t)

因此，

(

∣

(

)

∑

(

∣

(

)

(

∣

(

)

P(y|do(t))=\sum_{m}P(m|do(t))P(y|do(m))

P(y∣do(t))=∑mP(m∣do(t))P(y∣do(m))得证

总结三大视角

单一证明告诉各位公式是对的，三重证明告诉各位公式为什么是对的、在什么条件下是对的、以及如何推广。

意义视角回答：前门准则的设计动机是什么？
因果图视角回答：前门准则的结构条件是什么？
代数视角回答：前门准则的数学机制是什么？

三者合一，才算真正搞懂。

今天的内容大概就这些，实际开发中大家还会遇到更多细节，欢迎留言分享自己的经验。

小丸子博客

整理：前门准则的三重证明

前门准则的三重证明

前门准则的定义以及调整公式

前门准则的定义

前门准则的调整公式

从

从

从

视角一：从因果操作的语义出发

拆解两个干预分布的意义

P

P

三大假设为两个干预分布组合提供桥梁

一、

二、可交换假设（在无混杂因素的前提下，潜在输出结果与是否干预无关）

三、

综合看

综合看

视角二：从因果图视角

先移除

观察

综合联系

视角三：从代数视角

总结三大视角

评论 (0)