子非鱼和熊

V1

2022/04/29阅读:30主题:橙心

R与常用组间差异检验大串讲(1)

组间差异(均值或中位数)显著性检验大串讲

概述

目前有关方差分析的原理之类的讲解很多,大家可自行检索,这里推荐仔细研读Jonas Kristoffer LindeløvCommon statistical tests are linear models 如果你不想看英文的话,也可以看下对应的中文版(译者:黄俊文)😜 ,先放一张这位大神的总结😀 ,如下:

pdf原版可点击下面的链接👇:

其核心观点是大多数常用的统计模型t 检验、相关性检验、方差分析(ANOVA)、卡方检验等是线性模型的特殊情况或者非常好的近似,下面本文的结构将按这位大神的思路进行展开。


  1. 描述性统计分析(均值与方差)

科研人员经常会对变量之间的关系感兴趣,我们一般可用均值(一个样本所有个体某一特征A的算术平均值)及方差(该样本中个体之间特征A的离散程度)来描述各变量的基本情况(当然还有很多其他的方法,如中位数等)。

  1. 线性模型(形式多样,可通过变换得到):

y = ax+b+e
y为响应变量,x为解释变量,a为x的系数,b为模型截距,e为残差(x不能解释的部分)

在一般线性模型中,y必须为连续变量,x可为连续变量(如:年龄、温度、海拔等,此时线性模型检验的是x与y之间是否具有显著的相关关系)或分类变量(如性别等,此时检验的是y在x不同水平之间是否具有显著差异)。线性模型的目的就是找到系数a的最佳估计值使得残差最小,并评估模型的适合度。依据解释变量x的类型及数量,可选择不同的方法。

对自变量x而言:

  • T test:0个分类变量(单样本);1个分类变量2个水平(两样本); (转换成秩次顺序后,对应wilcox test、Mann-Whitney U 检验)

  • ANOVA:1个(单因素)、2个(双因素)及以上的分类变量; (对应非参数方法为kruskal-Wallis test)

  • ANCOVA:至少1个分类和连续变量,其水平2个及以上;

  • 简单线性回归(相关):x为连续变量;

  • 多元线性回归:2个及以上的连续变量;

  1. 线性模型前提条件

线性模型必须满足四个前提(都是基于残差,而不是解释变量或者响应变量本身),否则,依据该方法所得结果不可靠。

  • 残差的独立性:对于任意给定xi所对应的yi不会受到其他xi的影响,模型中没有未考虑到的结构(一般是空间或者时间上的自相关)

  • 残差满足正态性且均值为0,即大多数个体的残差值都接近0(误差很小)且在0值附近均匀对称分布(被高估和低估的个体数基本相等)

  • 残差的方差齐性,误差随解释变量改变而产生的变化程度不大。即残差分布相同,方差相等。

  1. 线性模型的零假设基本都是:
  • 两连续变量x与y之间并无显著关系
  • 或y在分类变量x的各水平之间并无显著差异。
  • 拒绝零假设的p值阈值称为α(alpha,可设为0.05,0.01,0.001)。当p值小于该阈值时,我们可以说拒绝零假设或者说支持备择假设。

这里需要注意的是如果p值大于显著性水平,在文字表述上不能直接说接受原假设,由于原假设不一定因为p值大于显著性水平就一定是正确的,只是没有足够的证据(仅基于这个样本来说)去拒绝原假设。

5. 建立线性模型的基本流程(模型多种多样,但流程基本一致)

  • 数据的探索性分析及可视化

  • 建立模型

  • 检验是否满足前提条件并在不满足时进行调整(数据转换)或者选择其他合适的模型

  • 根据模型结果作出推断

这篇推文主要是无聊的文字部分,接下来几天我将会把所涉及的几种统计检验在R语言中的实现方法连载完,尽情期待👻 。大纲视图如下:

技术有限,不知道怎么从obsidian导出为pdf,只能先放个全局图😅 ,见谅,此外,个人水平有限,如有错误之处,还请指出,万分感谢。

本文所涉及的参考资料:

[1].https://lindeloev.github.io/tests-as-linear/#1_the_simplicity_underlying_common_tests

[2].https://cosx.org/2019/09/common-tests-as-linear-models/#anova1

[3].https://r.qcbs.ca/workshop04/book-en/

分类:

数学

标签:

数学基础

作者介绍

子非鱼和熊
V1