littleBlackT

V1

2022/06/22阅读:34主题:前端之巅同款

总体标准差和样本标准差

总体方差 和 样本方差(sample variance)

设X为服从分布F的随机变量,如果 是随机变量X的期望值平均数 ( )

随机变量X或者分布F的方差(英语:Variance)为:

但在一般情况下,对总体的每一个个体都进行观察或试验是不可能的。因此,必须对总体进行抽样观察 (采样) 。由于我们是利用抽样来对总体的分布进行推断, 所以抽样必须是随机的,抽样值 应视为一组随机变量。由于抽样的目的是为了对总体的分布进行统计推断,为了使抽取的样本能很好地反映总体信息,必须考虑抽样方法。最常用的一种抽样方法叫作 "简单随机抽样",得到的样本称为简单随机样本,它要求抽取的样本满足以下两点:

  • 代表性: 中每一个与所考察的总体有相同的分布;
  • 独立性: 是相互独立的随机变量。

这样的样本叫做独立同分布(independent and identically distributed)样本,简称i.i.d.样本

在实践中采样得到i.i.d.样本之后,可以用样本方差 来近似总体方差 :


从自由度的角度理解

統計學上的自由度(degree of freedom, df),是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数称为该统计量的自由度。

  • 在一组样本数据的均值确定后,如果知道了其中n-1个数的值,第n个数的值也就确定了。这里,均值就相当于一个限制条件,由于加了这个限制条件,估计总体方差的自由度为 而不再是

也就是说,我们用样本均值 估计总体的期望值 的时候产生了一个限制条件使得剩余数据的自由度减小了。 假如仍然用 作为分母的话,得到的方差的估计就会偏小,我们称之为biased sample variance(有偏样本方差)

从严谨的推导来理解

考虑一组样本数据

也就是说,数学推导可以证明 的期望值并不等于 ,而是和它相差一个因子 ,换句话说,用 作为分母会导致低估方差

所以我们需要对它进行修正得到无偏差的样本方差Unbiased sample variance


写在后面的话

这个问题反直觉的点就在于,为什么取样本计算方差的时候,分母得是 而不是 ,我给出了两种比较初等的理解方式,个人认为,在理解过程中最重要的点是,区分什么是估计的,什么是真实的,比如说 就是用来估计


Reference:

https://www.jianshu.com/p/18aaa7b1cb09
https://www.zhihu.com/question/20099757?sort=created
https://www.zhihu.com/question/22983179
https://chinois.jinzhao.wiki/zh-hans/%E6%A8%99%E6%BA%96%E5%B7%AE
https://en.wikipedia.org/wiki/Variance

分类:

数学

标签:

数学基础

作者介绍

littleBlackT
V1