因果推断(二)——混杂因子,D-分离,后门准则

上次已经和大家分享了 因果推断 中贝叶斯相关知识,今天这部分和大家分享因果推断中的混杂因子,D-分离,后门准则的相关内容。

picture.image 先上例子

以上一篇中的诺贝尔奖和巧克力的事件为例,下图是他们三者的因果图,从图中可以看出这是一个叉式结构,即A和C相关。但是他们的相关性是通过“经济,教育水平”关联的,他们之间是 伪相关 ,而B就是 混杂因子 ,是它造成了A和C之间的伪相关。从字面上也很好理解,是因为B的存在导致我们对A和C之间的因果关系产生了混乱。

picture.image

图1

下图这种形式B也是confunder,即混杂因子。这种情况下,我们想要去发掘A和C的因果关系时,需要去除混杂因子,因为A->C的因果关系和A<-B->C造成的伪相关混合在一起了。

picture.image

图2

为了能正确分析因果关系,我们需要消除混杂,伪相关。

picture.image 条件独立与D-分离

picture.image

图3

因果推断(一)中,我们介绍了三种结构。链式结构和叉式结构中的A和C相关都是因为B的存在,因此如果B是确定的某一个值,那么A和C就以B为条件独立了,即picture.image。而对于对撞结构,刚好相反,在对撞结构中A和C是独立的,当B的值确定后,以B为条件,A和C就相关了。链式结构和叉式结构的比较好理解,对撞结构的可能会比较难理解,这里举个例子:

这个例子不一定符合事实,单纯为了理解这个结构。假设A为是否不运动,C为是否吃垃圾食品,B为是否肥胖。那么在对撞结构中,我们想要确定这个人是否肥胖需要知道他是否运动,以及是否吃垃圾食品。当知道B为肥胖时,如果我们知道A为不运动则可以推断出C为吃垃圾食品,即A和C在条件B下相关。而如果B的答案未知,那么A和C就没有关系,即是否运动和是否吃垃圾食品没有关系。

在因果关系领域,这种判断是否条件独立的方法被称为 D-分离

D-分离可以被定义为:假如链式结构的中间节点在节点集合E中,或者叉式结构的节点在节点集E中,或对撞结构的中间节点不在节点集合E中也不在其子孙节点中,则该 路径 被E节点D-分离了。如果A到C的每条路径都被E节点集合中的节点阻断了,则A和C被D-分离。

picture.image后门准则

消除伪相关的一种方法是采用后门准则。图2中A->C为前门路径,A<-B->C为后门路径。后门准则就是将A和C之间的后门路径都阻断,从而得到A和C之间真正的因果关系。

picture.image简单总结

形如叉式结构的容易造成伪相关,A<-B->C,A<-B<-D->C这两个结构中A和C之间都存在混杂,结合D-分离方法,第一个结构可以通过以B为条件消除混杂,第二个结构可以以B或D为条件消除混杂。在消除混杂的时候我们需要关注的是对于哪两个变量来说,即从第二个结构来说,如果我们以B为条件可以得到A和B<-D->C,A和C之间的伪相关是可以消除的,但是B和C之间貌似还存在着伪相关。因此伪相关的消除,我们需要关注是去消除哪两个变量之间的伪相关。

picture.image 小尾巴

更多内容:

因果推断(一)

有问题的小伙伴可以在公众号留言

更多内容可前往我的csdn博客和牛客博客,在公众号回复“博客”即可

0
0
0
0
评论
未登录
暂无评论