统计训练营统计训练营 4：贝叶斯、硬币、鱼、山羊和汽车了解您作为数据科学家每天使用的库背后的数学和方法

为了更正式地解决 Medium 上统计系列讲座的需求，我已经开始创建一系列统计训练营，如上面的标题所示。这些将相互建立，因此将相应编号。这样做的动机是从根本上使统计知识民主化，以满足数据科学界对更正式的统计培训的需求。

这些将开始简单并向上和向外扩展，并在此过程中进行练习和工作示例。在工程、编码和统计方面，我个人的理念是，如果你了解数学和方法，现在使用大量库所看到的抽象就会消失，让你成为生产者，而不仅仅是信息的消费者。其中许多方面将成为一些学习者/读者的评论，然而，有一个全面的理解和参考资源是很重要的。

该训练营致力于介绍贝叶斯定理并深入研究一些概率分布。

贝叶斯法则贝叶斯规则是计算条件概率的规则。贝叶斯的一些背景：用于根据新获得的信息修改概率源自一般乘法规则 “因为这已经发生了”……“现在或多或少有可能”等等。

假设事件 A1、A2、...Ak 是互斥且详尽的（如我们之前的训练营中所述）。然后对于任何事件 B：

P(A) 是没有其他证据存在时事件 A 的概率，称为事件 A 的先验概率（A 的基本比率）。

P(B) 是事件 B 发生的总概率，可以细分为上式中的分母。P(B) 被称为证据的概率，并且源自全概率规则。P(B|A) 是在 A 已经发生的情况下，事件 B 发生的概率，称为可能性。

P(A|B) 是在 B 已经发生的情况下 A 发生的可能性。它被称为后验概率。我们正在尝试计算后验概率。

如果在中风的低、中、高风险以及 5 年内发生中风的概率的示例中，问题是“如果随机选择的 50 岁受试者在过去 5 年中发生过中风怎么办？

他/她属于低风险组的概率是多少？

P(low) = 0.6, 
P(medium) = 0.3, 
P(high) = 0.1

如果随机选择的 50 岁受试者
在过去 5 年中发生过中风怎么办？ 

P(stroke|low) = 0.01, 
P(stroke|medium) = 0.05, 
P(stroke|high) = 0.09

P(low|中风) = ?

（这是我们的后验概率）

所以我们的答案是，如果一个随机选择的 50 岁的受试者在过去 5 年中发生过中风，那么他/她属于低风险组的概率是 20%。

让我们想想经典的蒙蒂霍尔问题。在其中两扇门后面，有一只山羊，在第三扇门后面是您的梦想之车。你选择一扇门。另一扇门打开，露出一只山羊，而不是您当前的选择。蒙蒂问你是想留在你的门里还是换到另一扇门。你该怎么办？你应该换——但是为什么？！让我们来看看…

当你第一次选择门时，你有 1/3 或 33.33% 的正确选择（随机）——这将会改变。假设汽车在 1 号门后面，而您选择了 2 号门……所以您目前拥有一只山羊。蒙蒂知道汽车在哪里。他不能打开你的门或汽车在哪里。那你应该留下还是换？您刚刚获得了 33.33% 以上的收益，因此您应该更换！

这就是为什么它是一个条件概率问题。我们的条件是在您第二次需要做出决定时“开门”。如果我们在所有场景和所有门选择中进行此操作，则相同的概率成立。如果蒙蒂随机打开一扇门，您第二次赢得汽车的机会将是 50%，而不是 66.6% 的转换和 33.33% 的停留。

随机变量

随机变量是一个定量变量，其值取决于机会。将此与离散随机变量进行比较，离散随机变量是可以列出其可能值的随机变量。

离散概率分布例子。每天，杰克和迈克都呆在生物实验室里，并掷硬币决定谁来清理实验室。如果是正面（H），那么杰克会清理干净。如果是反面 (T)，Mike 将完成这项工作。连续 3 天，他们向实验室主管报告。样本空间为：{H,H,H} {H,H,T} {H,T,T} {T,H,T} {H,T,H} {T,H,H} {T, T,H} {T,T,T}Jack 清理实验室 0、1、2 或 3 次的概率是多少？（让'x'是杰克清理的次数）。这是理论或预期的概率分布：

现在对随机变量 X（在 3 次投掷平衡硬币中获得正面的数量）执行 1000 次观察。这是经验概率分布（观察到的）。

请注意，当试验次数很大时，经验分布中的概率非常接近理论（真实）分布中的概率。

大数定律

如果我们投掷一枚平衡的硬币一次，我们推测硬币正面朝上落地的概率为 50-50。如果硬币被抛 50 次会发生什么？头部会准确地出现 25 次吗？不一定，由于变化。大数定律指出，随着试验次数的增加，经验概率（根据观察估计的概率）将接近理论概率。在这种情况下，1/2。您可以在下图中看到，投掷次数越多，正面的比例越接近理论值。

这是在python中生成上图的代码：


from random import randint 
import matplotlib.pyplot as plt 
import numpy as np 
import pandas as pd 
num = input('掷硬币的次数：') 
fracti = [] 
tosses = [] 
for num_tosses in range(1,1000) :    
    Flips = [randint(0,1) for r in range(int(num_tosses))] 
    results = [] 
    for object in flips: 
            if object == 0: 
                results.append(1) 
            elif object == 1:
                result.append(0) 
    fracti.append(sum(results)/int(num_tosses)) 
    tosses.append(flips)df = pd.DataFrame(fracti, columns=['toss']) 
plt.plot(df['toss'], color='g') 
plt.xlabel('投掷次数') 
plt.ylabel('分数头像') 
plt.savefig('toss.png',dpi=300)

概率分布的要求：

离散随机变量的概率之和必须等于 1，ΣP(X=x)=1。样本空间中每个事件的概率必须介于 0 和 1（含）之间。即0≤P(X)≤1。概率分布与相对频率分布相同，但是相对频率分布是经验性的，概率分布是理论性的。离散概率分布均值或期望离散随机变量 X的平均值表示为 μ_x，或者在不会出现混淆的情况下，简称为 μ。它定义为：

术语期望值和期望通常用于代替术语均值——以及为什么当您看到期望值的大写“𝔼”时，您应该认为是“均值”。

要解释随机变量的平均值，请考虑随机变量 X 的大量独立观测值。这些观测值的平均值将近似等于 X 的平均值 μ。观测值数量越大，平均值越接近趋向于μ。

相对频率表实际上是一个离散的概率分布，其中包含随机变量（兄弟 x）和每个事件的概率（相对频率）。给定班级中的兄弟姐妹概率分布，找到该班级中兄弟姐妹的预期数量（平均值）。下表是鞋的相对频率分布。

计算平均值：

离散概率分布标准差离散随机变量 X 的标准偏差表示为 σ_x，或者，如果不会出现混淆，则简单地表示为 σ。它被定义为：

离散随机变量的标准差也可以从计算公式中得到：

在我们相同的频率分布上执行操作：

离散概率分布累积概率例子。

掷一枚公平的硬币 10 次。最多有3 个正面的概率是多少？设 X = 正面总数量 P(X≤3)= P(X=0)+P(X=1)+P(X=2)+P(X=3)

至少有3 个正面的概率是多少？

P(X≥3)= P(X=3)+P(X=4)+P(X=5)+..+P(X=10)=1- P(X=0)+P(X =1)+P(X=2)=1-P(X≤2)

介于2 和 4（含）之间的概率是多少？

P(2≤X≤4)= P(X≤4)-P(X<2)= P(X≤4)-P(X≤1)= P(X=4)+P(X=3) +P(X=2)

伯努利分布

伯努利试验代表只有两种可能结果（例如 A 和 B）的实验。公式表示为：

P(X=A) = p, P(X=B) = 1-p=q

p：结果的概率（例如 A）

1-p：其他结果的概率（例如 B）例子：抛硬币通过或未通过考试为每个受试者分配治疗组/对照组在筛查/诊断测试中测试阳性/阴性

二项分布二项式实验是多个伯努利试验的串联。这是一个概率实验，必须满足以下要求：必须有固定数量的试验每个试验只能有 2 个结果（例如成功/失败）试验必须是独立的每次试验的成功概率必须保持不变二项分布是一系列“n”个独立试验中成功次数的离散概率分布，每个试验都有两个可能的结果和一个恒定的成功概率。当 n=1 时，伯努利分布可视为特殊的二项分布。符号： X~Bin(n,p)p: 成功概率 (1-p: 失败概率)

n: 跟踪

次数 X: n次试验成功次数，0≤X≤n

应用计数规则：

'X' 在 'n' 次试验中成功 → pp…*p= p^X

nX: 失败 → (1-p)*(1-p)…(1-p)= (1-p) ^(nX) = q^(nX)

二项式概率公式（理论）：

例子每天，Adrienne 和 Banafshe 都会在工程实验室中保持最新状态，并掷硬币决定谁来清理实验室。

如果是正面 (H)，Adrienne 将完成这项工作，如果是反面 (T)，Banafshe。然而，他们使用的硬币正面朝上的概率为 0.7。在接下来的一周中，找出 Adrienne 将清理实验室或正好 3 天（这里的一周是每周工作 5 天）的概率。

让 X 表示一周中 Adrienne 清理实验室的天数。X~Bin(5,0.7)。

Adrienne 至少清理 3 天的概率是多少？我们可以在下面表达它，并通过与上面相同的计算来添加 X=3、X=4 和 X=5 的概率。

例一份题为《关于美国人健康的统计报告》的出版物指出，12 岁及以上的美国人中有五分之三在过去一年中至少看过一次医生。

如果随机选择 10 名 12 岁以上的美国人，请找出恰好 3 人去年至少看过一次医生的概率。求至少 3 个人每年至少去看医生一次的概率。

n：试验次数=10 X：n 次试验中成功（拜访医生）的次数 = 3 p：成功的数值概率 = 3/5 q：失败的数值概率 = 2/5

和：

平均和立场。二项分布的开发均值：μ=np 方差：σ² = npq 标准差：σ= sqrt(npq) 例子。Adrienne 一周内清理的次数的平均值和标准差是多少？ n=5, p=0.7, q=0.3μ = 50.7 = 3.5σ = sqrt(50.70.3) = 1.02

通常，如果 p<0.5，二项分布是右偏的，如果 p=0.5 是对称的，如果 p>0.5 是左偏的。下图说明了 n=6 的 3 种不同二项分布的这些事实。

超过 2 个结果？

如果我们有两个以上的结果怎么办？假设我们正在研究 M&M 的辛西娅。我们从盒子里闭上眼睛选了 5 个。我们有 2 个蓝色、1 个黄色、1 个红色和 1 个绿色的机会是多少？

多项分布多项分布是每个试验有两个以上独立结果的分布。如果 X 由跟踪 k 个互斥且详尽的事件 E1、E2、..Ek 组成，它们具有相应的发生概率 p1、p2、..pk，其中 X1 是 E1 将发生的次数，X2 是次数E2 将发生的次数等，那么 X（x1、x2、.. 的特定发生）发生的概率为：

例子,在大城市里，50%的人选择看电影，30%的人选择晚餐和戏剧，20%的人选择购物，作为最有利的休闲活动。如果随机抽取 5 人作为样本，求 3 人计划看电影、1 人计划看戏、1 人计划去商场的概率。n=5, x1=3, x2=1, x3=1, p1=0.5, p2=0.3, p3=0.2

现在，假设我们要计划避免急诊室过度拥挤。如果我们知道 Northwestern Medicine 一年（365 天）有 25,000 次就诊，而急诊室每天处理 60 次，那么我们每天获得 68 次的机会有多大？

假设一家面包店没有足够的巧克力片，他们的松饼不会收费，我们如何模拟这个？泊松分布

Poisson的正确读音是pwa-sawn，在法语里是鱼的意思！

泊松分布是一种离散概率分布，它模拟特定事件在特定时间段内发生的频率、体积等（例如，每个松饼的巧克力片数；））。形式上，它是变量在一个区间（体积、时间等）内出现 X 次的概率，其中 λ 是每单位（时间、体积等）的平均出现次数公式为：

x=0,1,2,…（出现次数），e=是指数函数均值：μ = λ 方差：σ² = λ 标准差：sqrt(λ) 请注意，均值和方差在泊松分布中是相同的！

例子在黑鹰赛季，超过 49,687 小时的比赛时间有 203 人受伤。求在 1000 个比赛小时内发生 2 次受伤的概率。1. 求每 1000 游戏小时的受伤率2. X = 2，其中 X ~ Poisson ( λ =4.0855)：

从字面上看，值得深思。假设和以前一样的面包店，有便宜的不新鲜的羊角面包和新鲜的羊角面包，面包店的新手把它们混在一起了。有14个新鲜的和5个陈旧的。如果您想购买 6 个羊角面包，只有 1 个不新鲜的机会是多少？

超几何分布超几何分布是在没有替换的情况下进行采样时具有两个互斥结果的变量的分布。它通常在人口规模较小时使用。

给定两种类型的对象的种群，例如有“a”个类型为 A 的项目和“b”个类型为 B 的项目，并且 a+b 等于总种群，我们想要选择“n”个项目。选择“x”个 A 类项目的概率是多少？

步骤 1. 选择类型 A 的 x 项的方式数（x 项来自类型 A，因此其余 nx 项必须来自类型 B）：

步骤 2. 从 (a+b) 的池中选择 n 个项目的方法总数：

所以概率 P(X=x) 如果在 n 的样本大小中选择不放回 A 类型的 X 项和 B 类型的 nX 项：

例子10人申请篮球研究的研究协调员职位。6 人完成了研究生学位，4 人没有完成。如果该研究的调查员随机选择 3 名申请人而不替换，则找出所有 3 人都具有研究生学位的概率。a=6 有研究生学位b=4 没有研究生学位n=3X=3

在这个训练营中，我们现在继续使用概率论，包括介绍贝叶斯定理以及我们如何使用我们之前学习的概率规则（乘法理论）推导出它。您还学习了如何考虑概率分布——泊松、伯努利、多项式和超几何。请留意本系列的下一部分，我们将继续建立我们的统计知识！

该系列之前的新兵训练营： #1 奠定基础 #2 中心、变化和位置 #3 概率……概率