张春成

V2

2023/01/13阅读:14主题:默认主题

平均分布的范围估计原理

平均分布的范围估计原理

我一直觉得这顶多是个排列组合问题,但谁能想到,这样一个简单的计数问题能追溯到高斯超几何函数上去(Gauss’ hypergeometric function)。


问题描述

考虑平均分布

在观测到一系列值后 ,求 的估计值。

其中, ,另外 为待定总量, 为观测序列长度,观测序列中的最大值为

问题求解

求解过程参考页为

German tank problem[1]

待求问题可以抽象为

它代表在观测数据为 时,待定总量为 的条件概率。由贝叶斯条件概率公式可知如下等式恒成立

经过变形可得

右侧第一项可以表示为,证明过程详见附录-条件概率 1。

右侧第二项可以表示为,证明过程详见附录-条件概率 2。无论参数 如何取值,它都是一个与变量 无关的常数,因此不必过分关注。

右侧第三项可以表示为,证明过程详见附录-条件概率 3。

接下来,需要对第三项进行进一步简化,

其中,最难解决的部分有如下恒等式,证明过程详见附录-求和 1。注意,这个恒等式十分重要,后续分析会反复用到。

代入上式可知

因此条件概率为

并且累积分布概率为

根据条件概率,可以计算 的均值为,计算过程可见附录-均值 1


附录

条件概率 1

求解条件概率,它代表从 个值中无放回地随机取出 个值,其最大为 的概率。

不难看到,这属于经典概率论的无放回抽样问题,因此可以用最经典的统计可能性数量的方式进行计算。因此,在 的约束下,分子和分母分别为

因此,可以得到

条件概率 2

求解条件概率,它代表无放回随机抽样 次,被抽样样本规模为 的条件概率

引入新变量 ,它是未知参数,满足下式

条件概率 3

求解条件概率,它代表无放回随机抽样 次,最大抽样值为 的条件概率

这时样本总体的上限只是一个需要遍历的参数

当遇到不可能的情况时,概率为零

求和 1

证明如下等式:

证明过程来自 paper_499.pdf[2] 需要用到 Gauss’ hypergeometric function Hypergeometric function - Wikipedia[3]

证明:

Untitled
Untitled

其中,

另外,

Untitled
Untitled
Untitled
Untitled

证明毕。

均值 1

证明:

将被求和项进行变形

进一步可得

利用求和公式,可得含有 的项求和可得

因此有

证明毕。

参考资料

[1]

German tank problem: https://handwiki.org/wiki/German_tank_problem

[2]

paper_499.pdf: https://epub.ub.uni-muenchen.de/2094/1/paper_499.pdf

[3]

Hypergeometric function - Wikipedia: https://en.wikipedia.org/wiki/Hypergeometric_function

分类:

后端

标签:

后端

作者介绍

张春成
V2