张春成
2023/01/16阅读:23主题:默认主题
概然而非必然的世界
概然而非必然的世界
这是之前写过的一个系统,但之前写的过于散碎,因此重新编辑一下。
引言
阿甘正传里有个寓言,说是人生就像一盒巧克力,你永远不知道下一块是什么。很浪漫地说明了这个世界是概然的而不是必然的,随机和有序是这个世界的基本特征。因此,随机变量及其统计分析,是解释世界的基本工具之一。
伯努利实验
伯努利实验是经典的思想实验,你可以假设盒子里只有两种糖,且数量无限。实验过程是抽取一颗,并记录其种类。可见,实验结果必为二者取一且相互排斥。
糖果之间数量的比例,构成固定的概率空间。按照伯努利实验条件,一种糖所占的比例决定了它出现的概率。
从务虚的观点来讲,概率空间是意念中的良好一致的空间,但每次实验的抽样结果是混沌的现实世界。此时,意念是有序的,而抽样是随机的,二者对立统一。而意念中的有序世界,即为概率空间。
概率密度
在离散情况下,各种实验结果均有其出现的概率,但连续的情况下,所有特定值出现的概率都是 。为了解释这种诡异的现象,这里我们改变实验条件,使其平均地(等概率地)取 范围内的实数。 不难发现,满足条件的任意实数均有可能出现。 由于这些实数有无穷多个,因此特定实数出现的概率均为无穷小值。
为了避免这种平凡的零值,我们引入概率密度的思想,尝试用积分解决无穷小量相加的问题。首先需要完成从求和到积分的跨越。 我们暂时跳出特定值的困扰,转而求其邻域内概率之和
这样就可以很容易地重新定义其概率密度函数满足下式
其中, 代表抽样值出现在特定范围 内的概率。回到之前的例子,在概率密度的分析框架下,
实验值出现在特定范围内的概率等于其范围占数轴的长度
这一结论的证明可以分为两步进行,首先,将 区间分为 份,则每份出现的概率都是 ;之后,当 时,可以使每个元素都唯一地,对应 中的一个实数,套用概率密度的分析方法,可知 且 时,满足概率密度关系式。
另外,为了避免这个“长度”的概念过于模糊,我们不妨直接给出它在数学上的定义,即特定集合的“测度”。 不过这已经属于另外一个话题了,我们不再深入。但有一个事情需要进一步解释,那就是
当 时,……可以使每个元素都唯一地,对应 中的一个实数。
因为它严格来说是错的,它的错误可以用归一化的例子进行分析
在此种情况下,实数集不是可数集(Countable Set);但 是整数,它可以与有理数集进行映射,而有理数集是可数集。
Countable Set -- from Wolfram MathWorld
幸运的是,同样范围内的有理数集是可数的。 这样,我们就可以在使用时,只考虑该范围内的有理数,将它们与 中的每个数进行一一映射。 另外,由于有理数在实数空间中是稠密(Dense)的,因此在后续分析中可以在只考虑有理数及其邻域的情况下不重合地覆盖全部范围,从而不影响后续分析。
Dense -- from Wolfram MathWorld
没错,数学就是这么让人糟心。
二项分布
本文标题有“世界”二字,但笔力其实撑不起来。 为了避免过于高开低走,本文将进行一个简单的实验,并且尝试以可视化的方式,展示一个非常简单的动力学模型。 通过该模型,我们似乎可以涉足一个可爱的问题,
我们是否可能通过提高生产力的路径,达到均贫富的目标?
随机游走的游戏
我们不妨将实验称为“游戏”,显得更加活泼一点。 游戏规则是这样的:
-
该游戏有 名参与者; -
每名参与者的初始得分都是 ; -
每轮游戏,每个参与者获得分数,它等概率地从两个值中随机取一个 ; -
游戏重复 轮。
由于得分的绝对值大于减分的绝对值,我们不难得到两个初步结论:
-
随着游戏的进行,所有参与者的总分数呈上升趋势; -
同样的,每名参与者的分数也呈上升趋势。
那么,在这种设定下,我们可以认为游戏参与者是彼此“平等”的吗?
游戏进程
由于计算过程极其无脑,所以我们直接进入结果展示,下图为参与者分数变化的动力学模型变化以及分数在各个时间点的分布变化。可以看到,随着游戏的进行(从左往右),总分数越来越高。 这是与我们的初步推论是吻合的。


下面我们试图回答“平等”的问题
在这种设定下,我可以认为游戏参与者是彼此“平等”的吗?
为了回答“平等”问题,我采用反证法的方式,
-
首先根据某个较为直接的条件,尝试对“人群”进行“分割”; -
之后进行反证分析,如果我能够找到某种分割方法,使得人群被分为截然不同的几类,那么我们就有理由认为不同类的人,是不平等的;反之,人群中人就是平等的。
我分别以第 次迭代时的结果为锚点,分别选其中分数最高(红)、最低(黑)的 名参与者,对他们的动力学模型进行绘制。从图中可以看到,红色线簇“在相当长的时间内”保持在黑色线簇之上,且红、黑两簇曲线之间有着较大的“裂谷”。


虽然我们的游戏是建立在人人禀赋相同(即得分的概率空间相同)、无后效(单次实验与之前实验结果及当前状态无关)、且完全随机的公平实验条件下。 人与人之间仍然存在巨大的差异,主要表现为这样一个事实
某个参与者,在某一阶段落于下风的条件下,他将很难翻身。
这就是所谓的“阶级固化”。 不涉及任何政治属性,不需要任何制度设计,就这样自然而然地且异常残酷地自发产生了“阶级”。更加有意思的是,这样的动力学结果,竟然是建立在“生产力发展”这一前提之上的。 也就是说,即使游戏总分在持续增长,参与者之间的差异只会越来越大,并且会自发地产生不同参与者之间的分野。
真实的社会可能更加有趣,因为它还不可避免地涉及“私有资产”及其产生的利息。为了考虑“私有资产”及其产生的利息,我们稍微修改一下游戏规则
-
每轮游戏之后,若参与者的资产大于当时的 分位数,其大于的部分,将进行“增殖”,“利率”规定为 。
由于之间已经有铺垫,我们直接上图,下图为参与者分数变化的动力学模型变化以及他们的分数在各个时间点的分布变化


我还是以第 次迭代时的结果为锚点,分别选其中分数最高(红)、最低(黑)的 名参与者,对他们的动力学模型进行绘制。


此时,“输在起跑线上”就没有出头之日了。 虽然这里,生产力增长得更快了,但对下面的黑线,完全没有起到任何帮助。到此,我们回答了一开始提出的问题,只不过答案是否定的。
是否可能通过提高生产力的路径,达到均贫富的目标?不能。
在接下来部分中,我将从“二项分布”和“正态分布”的角度对以上实验结果进行解释,并顺理成章地,引出参数估计与统计检验的基本概念。
概率密度函数
二项分布是经典分布之一,用来描述重复“伯努利实验”结果时是非常合适的先验分布。 其概率密度函数如下
其中, 分别代表总实验次数和成功实验次数,每次实验成功的概率为 。 究其意义,它代表多次独立重复实验中,若干次实验成功的概率。由于二次型已经具有丰富的理论成果,我们不加证明地得到以下分析结果
上述三个等式分别说明,若随机变量服从二项分布,它的均值和方差分别为
其中,均值和方差是描述分布特性的重要指标,有着极其明确的实际意义。 这两个指标可以用来对采样值所属的范围进行估计。
均值和方差
更严格来说,当我们假设某个随机变量服从二项分布时,使用如下记法
那么在 和 值已知的情况下,我们能够合理地认为,随机变量取值的中心为 ,即该分布的均值;它的不确定性由其方差 所决定。也就是说,随着实验次数的增加,取值中心和不确定性同时增加,这是我们不希望看到的。因此我们考虑构造新的随机变量
利用均值和方差的性质可知,新随机变量的均值和方差为
这相当于我们已经进行了 次实验,可以自然地将它们看作是多次实验。这是一个非常有意思的结论,新随机变量的采样值ψ将严格地收敛到概率值ρ,并且它的方差值也随着n值的增加而线性减小。因此,随着实验次数的增加,我们可以认为实验成功次数占总实验次数的比例,逐渐收敛于实验成功的先验概率。 将其计为估计值,我们可以称其为无偏估计(Unbiased Estimator)。
Unbiased Estimator -- from Wolfram MathWorld
并且,当 时,其方差收敛于 。 这表明,当实验次数足够大时,我们可以重复这一过程,无论重复多少次,也会得到十分相似的结果。以上,就是我们常用的“多次实验取平均值”的实验方法背后的统计学原理。
采样、个体与总体
回想在之前游戏中的实验结果可以发现,如果把它们与“均值和方差”的概念结合起来,就可以轻易地解释这些结果。在每轮游戏中,参与者得分与丢分数值的随机变量满足“二项分布”。 根据二项分布的分布特性,随着实验次数的增加
-
总分持续增加,代表社会财富持续增加; -
新统计量 ,代表社会财富的人均数值,它不断增长且不断趋近于真实增长率 ,且它的不确定性也越来越低,所以在统计水平上一定会呈现出一种歌舞升平的样子; -
然而,对每名参与者来说,他的财富方差 却持续增加,这导致人与人之间无法平等,且随着实验次数的增加,这种不平等会不断加剧,参与者会不可避免地产生越来越强烈的“被平均”的感觉。
虽然之前的问题得到了良好解释,但我们遇到了一个新的问题,“用如此简单的数学模型可以作为真实社会经济生活的模拟吗?”我的回答是肯定的,这涉及数学上的“大数定律”和“中心极限定理”。
二项分布族
下面将以“二项分布”为起点,分别引申出“泊松分布”、“正态分布”、“卡方分布”与“T分布”。 虽然名目众多,但通过本文的分析可以看到,这些分布完全是一脉相承的关系,并不难理解。 这些分布在实际应用中,可以用来解决大量的统计分析问题。
我们之前看到“二项分布”在多次重复的伯努利实验中,可以用于对累积值进行较为准确的估计。然而,它存在的问题是,在实验次数 时,直接计算二项分布的概率密度函数是不可行的。 因为它只能适用于“离散”的情况,无法直接逾越“离散”与“连续”之间的鸿沟。这一点相当重要,因为我们经常遇到这样一种场景
在特定时间段内,我们需要估计特定事件发生的次数。
泊松过程
在数学上,我们可以将其抽象为这样一个问题,即考虑这样一个时间段
在该时间段的每个时间微元 内,某个事件都能够以 的概率发生,那么,该时间段内,该事件发生次数 的概率密度,可以通过下式表达
其中, 代表二项式系数。因此,可以认为在单位时间范围内,该事件发生的次数为特定值,该值的期望则满足下式
我们将它看作是被推入极限窘境的“二项分布”概率密度函数。事实上,这个计数过程代表一种特殊的动力学过程,称为“泊松过程“。
泊松分布
为了对“泊松过程”进行分析,我们引入“泊松分布”。 需要对“二项分布”的极限情况进行计算。 我们将期望值代入可得
经过简单的分解和近似
首先,利用二项式系数展开可知
因此,在取极限情况下总有下式成立
其次,利用重要极限可知
将上述两个恒等式代回原式可得
该式即为“泊松分布”的概率密度函数。
为了求得其均值和方差统计量,我们回到“二项分布”的均值和方差
在 的条件下,我们可得“泊松分布”的均值和方差
到此,我们解决了“泊松分布”的概率密度函数问题。
正态分布
然而,“泊松分布”需要事件发生的概率 ,这一条件往往不能得到满足。 在不满足的情况下,我们需要从另一角度进行分析。首先重写“二项分布”的概率密度函数如下
为了得到上述极限方程的解析式,我们引入Sterling 公式
经过一系列推导可得
我们再次利用“二项分布”的均值与方差
代入上式,可得
不难发现,此即正态分布的概率密度函数。这说明正态分布可以看作二项分布在 时的一般推广,即二项分布的极限分布是正态分布。
二项分布族
至此,我们可以看到,从二项分布开始,我们可以逐步衍生出一个分布家族。它的谱系可以简化如下。目前推导到了“正态分布”,下面将继续进行介绍,直到完成整个图谱。

卡方分布和T分布
我遇到了一种两难的矛盾,首先从逻辑关系来讲,应该先介绍“T分布”,因为它是“正态分布”的小样本解决方案; 但从数学计算的角度来讲,不先介绍“卡方分布”,就使得“T分布”有如无源之水,难以自洽。因此,为了避免如此顺序上的尴尬,我们还需要从“正态分布”入手,通过它的应用困难分别引出两个重要分布。
在上一节中,我从“二项分布”引出了“正态分布”,并且指出后者是 时的连续性替代。但实际应用中,我们往往既需要“正态分布”的连续性,又需要应付“小样本”规模的实际情况。 这样不上不下,就很难受。
仔细考察面临的困境可知,虽然我们不能直接认为手中的有限样本服从正态分布。 但是我们有理由认为,它们是从同一个“正态总体”中的有限“独立抽样”。
4.1.1 - Population is Normal | STAT 500
其中, 代表均值和方差为未知常数的正态分布; 代表抽样得到的随机变量。我们自然而然地获得如下关系
当 时,两式的商可以构造新统计量
从后面的分析可以看到,这个统计量具有非常优秀的性质,最直接的一点就是它自动地将未知方差进行归一化,从而将问题大大地简化了。当然,如果读者曾经处理过小样本数据的话,对上式应该十分熟悉,因为它活脱脱的就是传说中的“Z分数”变换,即减样本均值除样本标准差的“复杂操作”。 通过变换的命名也不难猜出,它就是“T分布”本T。
How to Calculate Z-Score and Its Meaning
卡方分布
这样,我们可以粗暴地给出定义,卡方分布即服从下式所规定的分布
其中, ,各个 彼此相互独立, 称为卡方分布的“自由度”。 记为
我们直接给出卡方分布的概率密度函数为
其中, 为Gamma函数
Gamma Function -- from Wolfram MathWorld
其中, 的定义域是复数空间,但我们只用到实数,甚至整数即可。
T分布
在卡方分布确定之后,我们可以方便地得到T分布的概率密度函数。首先,给出较为标准的T分布表达式
其中, ,记为 。
同样为了阅读连续性,我们直接给出T分布的概率密度函数如下
这样,我们就已经填完了图中的两个坑,即“卡方分布”和“T分布”。
作者介绍