张春成
2023/01/13阅读:14主题:默认主题
平均分布的范围估计原理
平均分布的范围估计原理
我一直觉得这顶多是个排列组合问题,但谁能想到,这样一个简单的计数问题能追溯到高斯超几何函数上去(Gauss’ hypergeometric function)。
问题描述
考虑平均分布
在观测到一系列值后 ,求 的估计值。
其中, ,另外 为待定总量, 为观测序列长度,观测序列中的最大值为 。
问题求解
求解过程参考页为
German tank problem[1]
待求问题可以抽象为
它代表在观测数据为 时,待定总量为 的条件概率。由贝叶斯条件概率公式可知如下等式恒成立
经过变形可得
右侧第一项可以表示为,证明过程详见附录-条件概率 1。
右侧第二项可以表示为,证明过程详见附录-条件概率 2。无论参数 如何取值,它都是一个与变量 无关的常数,因此不必过分关注。
右侧第三项可以表示为,证明过程详见附录-条件概率 3。
接下来,需要对第三项进行进一步简化,
其中,最难解决的部分有如下恒等式,证明过程详见附录-求和 1。注意,这个恒等式十分重要,后续分析会反复用到。
代入上式可知
因此条件概率为
并且累积分布概率为
根据条件概率,可以计算 的均值为,计算过程可见附录-均值 1
附录
条件概率 1
求解条件概率,它代表从 个值中无放回地随机取出 个值,其最大为 的概率。
不难看到,这属于经典概率论的无放回抽样问题,因此可以用最经典的统计可能性数量的方式进行计算。因此,在 的约束下,分子和分母分别为
因此,可以得到
条件概率 2
求解条件概率,它代表无放回随机抽样 次,被抽样样本规模为 的条件概率
引入新变量 ,它是未知参数,满足下式
条件概率 3
求解条件概率,它代表无放回随机抽样 次,最大抽样值为 的条件概率
这时样本总体的上限只是一个需要遍历的参数
当遇到不可能的情况时,概率为零
求和 1
证明如下等式:
证明过程来自 paper_499.pdf[2] 需要用到 Gauss’ hypergeometric function Hypergeometric function - Wikipedia[3]
证明:

其中,
另外,


证明毕。
均值 1
证明:
将被求和项进行变形
进一步可得
利用求和公式,可得含有 的项求和可得
因此有
证明毕。
参考资料
German tank problem: https://handwiki.org/wiki/German_tank_problem
[2]paper_499.pdf: https://epub.ub.uni-muenchen.de/2094/1/paper_499.pdf
[3]Hypergeometric function - Wikipedia: https://en.wikipedia.org/wiki/Hypergeometric_function
作者介绍