tslilove

V1

2022/12/21阅读:55主题:山吹

了解方差分析原理即步骤(一)

什么是方差分析 (ANOVA)?

方差分析(analysis of variance,ANOVA),就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响,换句话说就是比较不同组的均值(或平均值)之间的变异,以确定不同组別的方法之间是否存在任何差异。

使用方差分析的前提假设

  • 每个总体应该服从正态分布(观测值中的某个水平是来自总体的随机样本,也应服从正态分布)
  • 方差齐性,换句话说就是各个总体的方差 必须相同
  • 各观测值之间是相互独立的

注:方差齐性检验(原假设:方差相等 ;备择假设:方差不齐; 显著性大于0.05,则方差是齐的否则不齐)

方差检验的分析步骤:

1 提出假设

我们一般设因素有k个水平,每个水平的均值分别用 表示,要检验k个水平(总体)的均值是否相等,做出如下假设:

一般的,如果拒绝原假设 ,可以说自变量对因变量有显著影响,换句话说就是自变量与因变量有显著关系,反之,则没有足够的证据说自变量对因变量有显著关系。

2 作出检验统计量

如果要检验原假设 是否成立,那就要确定检验的统计量

①计算各样本均值

假定从第 个总体中抽取一个容量为 的简单随机样本,令 为第 个总体的样本均值,则有

注: 为第 个总体的样本量; 为第 个总体的第 个观测值

②计算全部观测值的总均值

总均值就是全部观测值的总和除以观测值的总个数的结果。令总均值为 ,则有

注:

③计算各误差平方和

为了检验统计量,在方差分析中呢,需要计算三个误差平方和,分别是总平方和、组间平方和(因素平方和)、组内平方和(误差平方和或残差平方和)

  • 总平方和(sum of squares for total),记作SST。是全部观测值 与总均值 的误差平方和,则有

它反应了各个观测值与全部观测值的平均数之间的差异

  • 组间平方和(sum of squares for factor A),记为SSA,它是各组均值 与总均值 的误差平方和,则有

其反应的是各样本之间的差异程度,又称为因素平方和。

  • 组内平方和(sum of squares for error),记为SSE,是每个水平或者组的各样本数据与其组均值的误差平方和,反映每个样本各观测值的离散状况,又称为误差平方和,其平方和反应的的是随机误差的大小,则有

综上有总平方和(SST) = 组间平方和(SSA)+组内平方和(SSE)(证明略

  • 计算统计量

由于是比较组间均方和组内均方之间的差异,一般计算SSA的均方和SSE的均方。SSA的均方也称组间均方或者组间方差,记为MSA,则有

SSE的均方也称为组内均方或组内方差,记为MSE,则有

将MSA和MSE进行对比,就会得到我们所需要的检验统计量F。当原假设 为真的的时候,即各水平的均值相等二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布,即

3 做出判断

如果原假设 成立,则表明没有系统误差,组间方差MSA与组内方差MSE的比值差异就不会太大;如果组间方差显著大于组内,说明各水(总体)之间的差异显然不仅有随机误差,还有系统误差。判断因素的水平是否对观测值有显著影响,实际上也就是比较组间方差与组内方差的差异的大小。那各水平之间的差异有多大,才能说明有系统误差的存在呢?这个时候就得就得用检验统计量来判断。将统计量的值F与给定的显著水平 下的临界值 进行比较,从而对原假设 做出决策。

我们需要在给定显著水平的 ,在 分布表中查找与分子自由度 、分母自由度 相应的临界值

  • ,则拒绝原假设 ,则表明 之间的差异是显著的,也就是说检验的因素对观测值有显著影响
  • ,则不拒绝原假设 ,没有证据表明 之间有显著差异,也就是说不认为所检验的因素对观测值有显著影响

了解了方差分析的原理和基本步骤,下期将用实际例子进行演练,从而熟练掌握

参考文献:贾俊平老师统计学

分类:

数学

标签:

数学

作者介绍

tslilove
V1