中值与均值的方差差异

本文尝试计算标准正态分布的中值的方差，并尝试分析它与均值方差之间的差异。

中值与均值的方差差异^[1]
- 均值方差的期望^[2]
- 中值方差的期望^[3]
- 实验结果^[4]

均值是一组数据的中心值,是所有数据相加再除以数据个数得到的结果。中值是将所有数据由小到大排列后中间的值。均值和中值可以用来代表一组数据的中心倾向,但是它们之间可能存在着差异。

方差是一组数据相对于其平均值的离散程度或变异程度的度量。均值和中值各自对应的方差可以用来反映这两个中心值代表的数据集的离散程度。当方差较大时,表示数据分布较为分散,离中心值较远;当方差较小时,表示数据较为集中,离中心值较近。

因此,均值和中值对应的方差大小的差异可以用来反映数据集的偏态和峰态的程度。当方差差异较大时,表示数据的分布较为偏态,即数据分布较为偏向均值一侧或中值一侧;当方差差异较小时,表示数据分布较为峰态,即数据较为集中在中心值附近。通过比较均值和中值的方差,我们可以进一步了解数据集的分布特性,这在实际数据分析中具有重要意义。

均值方差的期望

若有服从标准正态分布的随机变量

对它进行相互独立的采样，则样本均值为

其中，代表样本规模。由于此分布极其常见，因此不加证明地给出它的方差期望为

中值方差的期望

中值的计算过程较为复杂，用现在流行的话来说就是有非线性成分

而能够确定的事情是它的均值是零，因为标准正态分布以为对称轴

接下来，我们开始计算它的方差的期望，即计算如下期望

其中，代表全部可能的中值，代表全部个样本的前一半元素的数量，我们当然要求它们全部小于，而另一半元素则全部大于，代表标准正态分布的累积函数。根据上述条件，我可以安全地指定概率密度函数为

我不知道怎么解这个式子，但不妨碍我用数值模拟的方式计算它，这当中有个大坑，我将在之后的文章中进一步解释。

实验结果

下面是我通过程序模拟生成的一组实验数据，它既包含理论期望值（Expectation）也包含随机样本（sample）

下图中横坐标为样本数量，纵坐标为方差的均值（散点）或期望（线），红色和蓝色散点分别代表样本中值和均值，绿色和紫色曲线分别代表中值和均值的期望，可以看到它们吻合的比较准确，具体表现为从样本点中穿过。可以看到，虽然随着样本数量的提升，两个方差都越来越小，但均值的收敛速度始终快于中值，这也是在多数统计量中使用均值而非中值的原因。但中值统计量对野点的抵抗力大于均值统计量，这是它的优势，当然这是另外的事情了。

另外，我们通过计算中值方差和均值方差之间的商，发现它们“几乎”“严格”地等于一个定值

因此我猜测总有下式成立，

其中，代表全部可能的中值，代表全部个样本的前一半元素的数量，我们当然要求它们全部小于，而另一半元素则全部大于，代表标准正态分布的累积函数。但我想了一天也没有想明白怎么证明或证伪这个命题，烦躁。

参考资料

[1]

中值与均值的方差差异: #中值与均值的方差差异

[2]

均值方差的期望: #均值方差的期望

[3]

中值方差的期望: #中值方差的期望

[4]

实验结果: #实验结果