从集合中选择一个元素的概率

3
从n个元素的集合中随机选择一个元素的预期概率为P=1.0/n。假设我使用足够多次的无偏方法检查P。那么P的分布类型是什么?显然,P不是正态分布,因为它不能为负数。因此,我可以正确地假设P服从伽马分布吗?如果可以,这个分布的参数是什么?100个元素集合中选取1000次元素的概率的直方图在这里显示。
有没有办法将其转换为标准分布?
现在假设所选择的元素的观察概率为P*(P*!= P)。如何估计偏差是否具有统计学意义?
编辑:这不是一项作业。我正在做一个兴趣项目,我需要这个统计信息。我最后一次做作业是在大约10年前 :)

1
这不是作业。我正在做一个爱好项目,我需要这个统计数据。我最后一次做作业是大约10年前 :-) - Boris Gorelik
这不完全取决于你的随机数生成器吗?如果一个随机数生成器是完美的,那么每次选择的概率始终为1/n,无论选择的次数如何,在1000次选择后,每个元素应该被选择了1000/n次 - 我好像漏掉了什么。 - Mecki
4个回答

3

这是一个明确的二项分布,其中p=1/(元素数),n=(试验次数)。

为了测试观察结果是否与预期结果显著不同,您可以进行二项式检验

两个维基百科页面上的骰子示例应该能够为您提供如何制定问题的良好指导。在您的100个元素、1000次试验的例子中,这就像是投掷100面骰子1000次。


3

对于重复选择,你的分布将是二项式分布。因此,令X为您选择某个固定对象的次数,总共进行M次选择

P{ X = x } = ( M choose x ) * (1/N)^x * (N-1/N)^(M-x)

当N足够大时,您可能会发现难以计算。事实证明,对于足够大的N,这实际上收敛于正态分布,概率为1(中心极限定理)。

如果P{X=x}由正态分布给出。平均值将为M/N,方差将为M*(1/N)*(N-1)/N。


不是的,它是在分布上收敛(经过适当的缩放)。两者之间的差异在这里并不相关,但从数学上讲,你的说法是非常错误的。实际上,它以概率1收敛于正态分布。 - Alexandre C.
收敛速度在p接近0或1时也会变得非常缓慢,因此N必须非常大。 - Andrew Mao

1

正如其他人所指出的那样,您需要使用二项分布。不过,您的问题似乎暗示了对其连续近似的兴趣。实际上,它可以通过正态分布近似,也可以通过泊松分布进行近似。


0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接