张春成
2022/08/01阅读:8主题:默认主题
辛普森悖论
辛普森悖论
在统计学中有一个挺神奇的悖论,称为辛普森悖论(Simple’s Paradox)。
简单来说,就是“在分组比较中都占优势的一方,在总评的时候有时反而是失势的一方。”
本文试图通过交互式的可视化方法,对它进行解释。
并且试图说明这种矛盾的情况并不是很偏僻的角落,甚至在合适的构造方法下,这种矛盾总能发生。
辛普森悖论
这是一个严肃的统计学问题,详细的论述可见
Simpson’s Paradox (Stanford Encyclopedia of Philosophy)[1]

可交互的图表解释
本文的代码可见我的 OBSERVABLE 代码本
Interactive Simpson's Paradox[2]

原始数据以 OA 和 AB 的形式获得。线段的斜率是指精度,比例等。因此,OB 的斜率是指整体精度。
通常情况下,我们希望斜率越大越好。
在红色三角存在的情况下,很容易获得斜率大于OA的“更好”的OC方法。之后,总是可以做CD与AB平行。这时不难发现,CD 的斜率与 AB 相等。
这时总可以找到比 CD 更好的 CE,只要满足 CE 大于 CD 即可。
这时,射线 CE 与 OB 总有交点,在 C 点与该交点之间的线段上任取一点 O‘,这显然就是一个比OB更糟糕的OO'。
但是考虑到 OO’ 是由 OC 和 CE 生成的,然而从斜率来讲,
-
OC 优于 OA -
CE 优于 AB -
但 OO’ 劣于 OB
这就是辛普森悖论。
有意思的是,我前面的推导是从红色三角形 OAB 开始,只要这个三角形存在,就一定能够推出悖论的存在区间 OCO’。
也就是说,无论分组比较的分组情况如何,我们总能“生成”一组新的数据,来“导致”悖论的发生。
这就说明辛普森悖论并不是某个犄角旮旯的特殊情况,而是只要有分组比较,就可能出现的“一般情况”。
参考资料
Simpson’s Paradox (Stanford Encyclopedia of Philosophy): https://plato.stanford.edu/entries/paradox-simpson/#:~:text=Simpson%E2%80%99s%20Paradox%20is%20a%20statistical%20phenomenon%20where%20an,independent%20or%20even%20negatively%20associated%20in%20all%20subpopulations.
[2]Interactive Simpson's Paradox: https://observablehq.com/@listenzcc/interactive-simpsons-paradox
作者介绍