张春成

V2

2022/01/04阅读:61主题:默认主题

方差分析(五)

方差分析(五)

除了之前介绍的情况之外, 样本变量之间的协方差也是影响方差分析的难点之一。 本文继续进行实验。


数据构造

由于前面有诸多铺垫, 在此直接介绍本文的数据构造方式。

本文构造的数据具有较为极端的性质,

  • 两个类别的样本具有完全相同的分布;
  • 两个类别的样本同样具有极其紧密的联系。

具体的方法是构造两个相互独立的正态分布数据

在构造过程中,它们是完全独立的

# Generate Independent Datasets v1 and v2
import numpy as np 
v1 = np.random.randn(num)
v2 = np.random.randn(num)

之后,将它们进行“融合”

另一组数据是

由于均值为零, 且方差满足可加性, 因此可以认为

其中,方差 的取值随变量之间的相关性而变化, 在本实验中,它为恒定值 。 它们的值的分布如下

Raw
Raw

其中,蓝色是以 为分界点,左右的数据分别为 ; 红色是打乱顺序的数据。 看上去,左右的数据分布真的毫无规律可言。

方差分析

从第 个数据,到第 个数据进行左右分类, 并对两类进行方差分析,却可以看到明显的区别

Var-3D
Var-3D

可以看到,随着分类点的移动,方差分析的指标同样呈现规律性, 在二维空间的映射更加直观

Var-2D
Var-2D

其中,两个坐标轴分为代表“两类”的方差大小, 颜色代表F值。 相似的颜色在该空间中呈现“聚团”特性, 这说明, 方差分析能够在这组数据中,找到潜在的分割点。

而前面在生成数据时已经说明, 两类数据并没有统计量上的差异, 只是具有较强的协变关系。

这说明

数据之间的协变关系,也是导致方差分析出现“错误”的诱因。

这一点相当的可怕, 因为使用方差分析对类别之间的差异进行检验的时候, 我们希望它能够找到“均值”差异, 但如果两个实验条件,同时受到某个协变量的影响, 导致它们之间的协变关系较强, 就很容易导致错判。

事实上,很多经典的实验数据解读的错误就是这么发生的。

分类:

数学

标签:

数学

作者介绍

张春成
V2