锹形虫

V1

2022/08/11阅读:41主题:嫩青

【医学统计学】二项分布

关于二项分布的介绍

1. 什么是二项分布?

在医学统计学的学习过程中,我们常会学到各种分布,他们有的是资料数据的分布,有的是统计量的分布。但总的来说都是表达的随机变量的分布。除开通过生活经验就能理解的正态分布外,我们遇到的第一个大多是二项分布。那么什么是二项分布?

二项分布[1]指的是一些事物的结局只有两种互相对立的结果,每个个体的观察结果只能取其中之一,如果个体观察值之间是相互独立,则对这类事物常用二项分布(bi-nominal distribution)进行描述。

为了方便我们理解,一些专有名词往往能“望文生义”。我们可以将这个概念拆解:“二项”,指的是伯努利试验(Bernoulli)[2];“分布”,指的就是频数分布或者频率分布(这两者的不同在后文会着重提到)。也就是说,二项分布指的就是很多次伯努利试验的结果所形成的频数分布或者频率分布的结果。例如:我们抛了十次硬币,得到了六次正面。 那么回忆一下之前我们学过的一些概念。从这个例子中把那些概念找出来:

  1. 总体——无数次抛硬币
  2. 样本——这10次抛起硬币
  3. 总体参数——无数次抛起的正面的次数
  4. 样本统计量——这10次抛得到的6次正面
  5. 样本量——10次

首先,不难理解这10次抛起硬币得到了10个数据,它们由正面(1)和反面(0)组成。所以就是1111110000,前六次都是1,后4次都是0.当然根据我们生活经验来看,这10次抛硬币的0和1的分配往往不会如此规整。前6次为1,后4次为0也只是诸多满足6次正面,4次反面的其中一种可能而已,而我们关心的是所有的排列组合可能和的情况。那么一共有多少种呢?借助一点高中数学的知识,排列组合的运算如下:

然后,类似的,我们不难理解其实抛10次硬币出现6次正面也只是一种情况,一个偶然而已。或许还有可能会出现5次或者7次。更准确的说,从0次到10次正面的可能性都有。加入换一个样本(另一个10次抛硬币),或许正面次数就会改变。那么,到底抛10次硬币一般来说会出现多少次正面呢?根据生活常识不难想到是5次左右,因为我们默认一个均匀的硬币正反面的可能性是五五开的,所以平均为5次正面。此时我们就需要再考虑从0次正面到10次正面共计11种情况每种情况的可能性了,这些可能性都不为0,因为它们都是可能发生的,但他们又存在规律,因为往往5次左右的正面可能性更高。而这些在不同正面次数下“高低不平”的可能性大小,就是二项分布。如图1所示:(图1)

2. 二项分布的计算

我们在上述说明了什么是二项分布,说它其实就是多次伯努利试验结果各种不同情况的频数或者频率的分布。那为了更精确地了解各种情况的可能性大小(分布情况),我们还希望计算各种情况的概率。首先对于某一种情况来说,例如上述的10次中有6次正面,我们知道它一共有(公式1)那么种排列组合,而关于`事件发生概率的乘法法则`以及`概率的加法法则`[3]。若这个均匀的硬币正面概率为0.5,则6次正面的概率就是:

由此可见,从0到10次正面,每一种情况的可能性大小都可以通过这个公式计算出来,如图1所示,其横坐标为0到10的11种情况,纵坐标则为每种情况发生的可能性大大小(概率P);同时额外拓展的一个小提示是,二项分布各种可能性大小本质上其实是n次伯努利试验的二项展开式,如下式:

3. 二项分布的性质

那么现在我们理解,我们每对某个二项分布的总体做一次抽样,就能根据样本得到一个二项分布,那么这个分布的性质如何呢?这里我们需要从两个角度来考虑:从事件数的角度(发生次数):从率的角度(发生率)

从事件数的角度,当完成一次二项分布抽样后,我们所形成的二项分布横坐标将会是各种情况(分类变量),例如0次、1次...10次等,纵坐标仍然是每种情况的概率大小。但需要注意的是:

  1. 这10次抛起硬币是作为一次抽样,因此是一个样本
  2. 而10次抛起是我们的样本量,因此形成了10个数据
  3. 得到的6次阳性是我们根据试验结果计算出来的统计量(均数)

区别于一般的算术均数的计算过程,伯努利试验结果互斥并存在可能性,因此其均数实际上是加权平均数,这也就是意味着得到的6次正面实际上是10个数据的加权平均。这也就不难理解(公式5)中的sigma就是二项分布事件数角度的均数的标准差,当然也可以称之为均数的标准误或者标准误。关于事件数角度的相关公式如下,mu和sigma的确定也就确定了一个二项分布的特征和性质:

从率的角度,原因是我们更常关注的是二项分布的各种情况发生率的可能,而不是绝对数或者事件数X。需要注意的是,当我们把事件数替换成率的时候,图1形成的二项分布其横坐标就不再是0次正面到10次正面的11种情况了,其变成了0/10、1/10、2/10...10/10共计11种情况,而纵坐标仍然是这11种情况分别的可能性(概率)。我们不难发现,0/10到10/10分别对应了不同情况下所代表的频率,或是说概率。因此,此时的纵坐标的大小,就变成了概率的概率。即每一种可能性的可能性有多大。这也就达到了我们关注发生率的目的。当然,p也是一种加权均数,所以sigma_{p}也就是率的角度下的二项分布的标准误了。关于率的角度的二项分布两个特征参数的公式代换是简单的,用频率代替事件数即可,替换如下:

4. 二项分布的应用条件

  1. 当n·pi和n(1-pi)均大于5时,二项分布可以使用正态近似
  2. 二项分布要求资料独立、随机、稳定、结果二分类

二项分布适用于二分类变量,而当资料为连续性变量的时候,其分布的含义又如何?连续性平滑曲线的分布带来的概率“无穷性”要如何处理?“概率的概率”在其中又如何理解?就留我们下次讨论吧~

全文完,感谢浏览。

参考资料

[1]

二项分布的概念: 医学统计学第三版【陆守曾/陈峰】(P18-19)

[2]

伯努利试验: https://baike.baidu.com/item/%E4%BC%AF%E5%8A%AA%E5%88%A9%E8%AF%95%E9%AA%8C/238488?fr=aladdin

[3]

概率的加法/乘法: 医学统计学第三版【陆守曾/陈峰】(P19)

分类:

其他

标签:

医学

作者介绍

锹形虫
V1