张春成

V2

2022/08/01阅读:8主题:默认主题

辛普森悖论

辛普森悖论

在统计学中有一个挺神奇的悖论,称为辛普森悖论(Simple’s Paradox)。

简单来说,就是“在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。”

本文试图通过交互式的可视化方法,对它进行解释。

并且试图说明这种矛盾的情况并不是很偏僻的角落,甚至在合适的构造方法下,这种矛盾总能发生。


辛普森悖论

这是一个严肃的统计学问题,详细的论述可见

Simpson’s Paradox (Stanford Encyclopedia of Philosophy)[1]

Simpson’s Paradox (Stanford Encyclopedia of Philosophy)
Simpson’s Paradox (Stanford Encyclopedia of Philosophy)

可交互的图表解释

本文的代码可见我的 OBSERVABLE 代码本

Interactive Simpson's Paradox[2]

Simpson’s Paradox
Simpson’s Paradox

原始数据以 OA 和 AB 的形式获得。线段的斜率是指精度,比例等。因此,OB 的斜率是指整体精度。

通常情况下,我们希望斜率越大越好。


在红色三角存在的情况下,很容易获得斜率大于OA的“更好”的OC方法。之后,总是可以做CD与AB平行。这时不难发现,CD 的斜率与 AB 相等。

这时总可以找到比 CD 更好的 CE,只要满足 CE 大于 CD 即可。

这时,射线 CE 与 OB 总有交点,在 C 点与该交点之间的线段上任取一点 O‘,这显然就是一个比OB更糟糕的OO'。

但是考虑到 OO’ 是由 OC 和 CE 生成的,然而从斜率来讲,

  • OC 优于 OA
  • CE 优于 AB
  • 但 OO’ 劣于 OB

这就是辛普森悖论。


有意思的是,我前面的推导是从红色三角形 OAB 开始,只要这个三角形存在,就一定能够推出悖论的存在区间 OCO’。

也就是说,无论分组比较的分组情况如何,我们总能“生成”一组新的数据,来“导致”悖论的发生。

这就说明辛普森悖论并不是某个犄角旮旯的特殊情况,而是只要有分组比较,就可能出现的“一般情况”。

参考资料

[1]

Simpson’s Paradox (Stanford Encyclopedia of Philosophy): https://plato.stanford.edu/entries/paradox-simpson/#:~:text=Simpson%E2%80%99s%20Paradox%20is%20a%20statistical%20phenomenon%20where%20an,independent%20or%20even%20negatively%20associated%20in%20all%20subpopulations.

[2]

Interactive Simpson's Paradox: https://observablehq.com/@listenzcc/interactive-simpsons-paradox

分类:

后端

标签:

后端

作者介绍

张春成
V2