为什么 random() * random() 不同于 random() ** 2?

7
random() * random()random() ** 2之间有区别吗?random()返回一个从均匀分布中在0到1之间的值。
当测试这两个版本的随机平方数时,我注意到了一点差异。我创建了100,000个随机平方数,并计算了每个0.01间隔(从0.00到0.01,0.01到0.02等)中有多少个数字。似乎这些版本的平方随机数生成是不同的。
将一个随机数平方而不是将两个随机数相乘,使您重复使用一个随机数,但我认为分布应该保持不变。真的有区别吗?如果没有,为什么我的测试显示了差异?
我生成了两个随机分布,一个是random() * random(),另一个是random() ** 2
from random import random

lst = [0 for i in range(100)]
lst2, lst3 = list(lst), list(lst)

#create two random distributions for random() * random()
for i in range(100000):
    lst[int(100 * random() * random())] += 1

for i in range(100000):
    lst2[int(100 * random() * random())] += 1

for i in range(100000):
    lst3[int(100 * random() ** 2)] += 1

这提供了

>>> lst
[
    5626, 4139, 3705, 3348, 3085, 2933, 2725, 2539, 2449, 2413,
    2259, 2179, 2116, 2062, 1961, 1827, 1754, 1743, 1719, 1753,
    1522, 1543, 1513, 1361, 1372, 1290, 1336, 1274, 1219, 1178,
    1139, 1147, 1109, 1163, 1060, 1022, 1007,  952,  984,  957,
     906,  900,  843,  883,  802,  801,  710,  752,  705,  729,
     654,  668,  628,  633,  615,  600,  566,  551,  532,  541,
     511,  493,  465,  503,  450,  394,  405,  405,  404,  332,
     369,  369,  332,  316,  272,  284,  315,  257,  224,  230,
     221,  175,  209,  188,  162,  156,  159,  114,  131,  124,
     96,   94,   80,   73,   54,   45,   43,   23,   18,     3
]

>>> lst2
[
    5548, 4218, 3604, 3237, 3082, 2921, 2872, 2570, 2479, 2392,
    2296, 2205, 2113, 1990, 1901, 1814, 1801, 1714, 1660, 1591,
    1631, 1523, 1491, 1505, 1385, 1329, 1275, 1308, 1324, 1207,
    1209, 1208, 1117, 1136, 1015, 1080, 1001,  993,  958,  948,
     903,  843,  843,  849,  801,  799,  748,  729,  705,  660,
     701,  689,  676,  656,  632,  581,  564,  537,  517,  525,
     483,  478,  473,  494,  457,  422,  412,  390,  384,  352,
     350,  323,  322,  308,  304,  275,  272,  256,  246,  265,
     227,  204,  171,  191,  191,  136,  145,  136,  108,  117,
      93,   83,   74,   77,   55,   38,   32,   25,   21,    1
]

>>> lst3
[
    10047, 4198, 3214, 2696, 2369, 2117, 2010, 1869, 1752, 1653,
     1552, 1416, 1405, 1377, 1328, 1293, 1252, 1245, 1121, 1146,
     1047, 1051, 1123, 1100,  951,  948,  967,  933,  939,  925,
      940,  893,  929,  874,  824,  843,  868,  800,  844,  822,
      746,  733,  808,  734,  740,  682,  713,  681,  675,  686,
      689,  730,  707,  677,  645,  661,  645,  651,  649,  672,
      679,  593,  585,  622,  611,  636,  543,  571,  594,  593,
      629,  624,  593,  567,  584,  585,  610,  549,  553,  574,
      547,  583,  582,  553,  536,  512,  498,  562,  536,  523,
      553,  485,  503,  502,  518,  554,  485,  482,  470,  516
]

预期的随机误差是前两个之间的差异:
[
    78,  79, 101, 111,   3,  12, 147,  31,  30,  21,
    37,  26,   3,  72,  60,  13,  47,  29,  59, 162,
   109,  20,  22, 144,  13,  39,  61,  34, 105,  29,
    70,  61,   8,  27,  45,  58,   6,  41,  26,   9,
     3,  57,   0,  34,   1,   2,  38,  23,   0,  69,
    47,  21,  48,  23,  17,  19,   2,  14,  15,  16,
    28,  15,   8,   9,   7,  28,   7,  15,  20,  20,
    19,  46,  10,   8,  32,   9,  43,   1,  22,  35,
     6,  29,  38,   3,  29,  20,  14,  22,  23,   7,
     3,  11,   6,   4,   1,   7,  11,   2,   3,   2
]

但第一组和第三组之间的差异要大得多,这表明它们的分布不同:

[
    4421,   59,  491,  652,  716,  816,  715,  670,  697,  760,
     707,  763,  711,  685,  633,  534,  502,  498,  598,  607,
     475,  492,  390,  261,  421,  342,  369,  341,  280,  253,
     199,  254,  180,  289,  236,  179,  139,  152,  140,  135,
     160,  167,   35,  149,   62,  119,    3,   71,   30,   43,
      35,   62,   79,   44,   30,   61,   79,  100,  117,  131,
     168,  100,  120,  119,  161,  242,  138,  166,  190,  261,
     260,  255,  261,  251,  312,  301,  295,  292,  329,  344,
     326,  408,  373,  365,  374,  356,  339,  448,  405,  399,
     457,  391,  423,  429,  464,  509,  442,  459,  452,  513
]

8
通过调用 random() 两次,你会得到2个不同的数字。而 random()^2 是平方运算 - 我没有看到混淆之处。 - karthikr
1
你自己已经回答了这个问题:“通过将一个随机数平方而不是将两个随机数相乘,你可以重复使用一个随机数”。你为什么认为“结果应该是相同的”? - BrenBarn
3
这不是一个坏问题,但或许在 [math.se] 上更加适合讨论。 - JJJ
11
假设 random() 以相等的概率返回 0.0 或 1.0,那么 pow(random(), 2) 将以相等的概率返回 0.0 或 1.0。但是 random() * random() 返回 0.0 的可能性为 75%,1.0 的可能性为 25%。即使在这种非常简单的情况下,分布也非常不同。现在重新进行分析,假设 random() 均匀随机地返回 0.0、0.5 或 1.0。以此类推,重复这个过程直到彻底理解。;-) - Tim Peters
2
我认为他所问的问题是:如果X和Y是[0,1]上均匀分布的随机变量,为什么X²的分布与X*Y的分布不同。经过修改后,应该将其移到数学领域,但我对这样一个重大的修改感到有些不舒服。 - Korem
显示剩余3条评论
2个回答

17

这里有一些图表:

random() * random() 的所有可能性:

一个二维热力图,最强的部分在右上角。

x轴是一个随机变量向右增加,y轴是另一个向上增加。

可以看到,如果其中一个很低,结果就会很低,而且两个都必须很高才能得到高的结果。

当唯一的决定因素是单一轴线时,如random() ** 2案例中,你会得到:

一个二维热力图,从底部到顶部呈二次函数增长,并在x轴上不变

在这种情况下,更有可能得到非常黑暗(大)的值,因为整个顶部都很黑暗,而不仅仅是一个角落。

当你将两者线性化,并将random() * random()放在前面时:

第一个图形的线性化 第二个图形的线性化

你会发现分布确实不同。

代码:

import numpy
import matplotlib
from matplotlib import pyplot
import matplotlib.cm

def make_fig(name, data):
    figure = matplotlib.pyplot.figure()
    print(data.shape)
    figure.set_size_inches(data.shape[1]//100, data.shape[0]//100)

    axes = matplotlib.pyplot.Axes(figure, [0, 0, 1, 1])
    axes.set_axis_off()
    figure.add_axes(axes)

    axes.imshow(data, origin="lower", cmap=matplotlib.cm.Greys, aspect="auto")
    figure.savefig(name, dpi=200)

xs, ys = numpy.mgrid[:1000, :1000]
two_random = xs * ys

make_fig("two_random.png", two_random)

two_random_flat = two_random.flatten()
two_random_flat.sort()
two_random_flat = two_random_flat[::1000]

make_fig("two_random_1D.png", numpy.tile(two_random_flat, (100, 1)))

one_random = xs * xs

make_fig("one_random.png", one_random)

one_random_flat = one_random.flatten()
one_random_flat.sort()
one_random_flat = one_random_flat[::1000]

make_fig("one_random_1D.png", numpy.tile(one_random_flat, (100, 1)))

你也可以通过数学方法来处理。得到一个小于 x 的值的概率,其中 0 ≤ x ≤ 1

对于 random()²

√x

随机值小于x的概率就是random()² < x的概率。

对于random() · random()

假设第一个随机变量为r,第二个为R,固定R可求得Rr < x的概率:

P(Rr < x)
= P(r < x/R)
= 1 if x > R (and so x/R > 1)
or
= x/R otherwise
所以我们希望
∫ P(Rr < x) dR from R=0 to R=1

= ∫ 1   dR from R=0 to R=x
+ ∫ x/R dR from R=x to R=1

= x(1 - ln R)

正如我们所看到的,√x ≠ x(1 - ln R)

这些分布显示为:

概率函数小于给定值

y 轴给出了线 (random()²random() · random()) 小于 x 轴的概率。

我们可以看到,对于 random() · random() 来说,大数的概率显著地小于其他数。

密度函数

我认为最明显的事情是区分 (½x ^ -½- ln x) 并绘制概率密度函数:

每个数字发生的概率

这显示了每个 x 相对于其他数的概率。因此,x 是大数的概率(> 0.5)对于 random()² 变体来说大约是两倍。


非常好的详细解释。你花了多长时间来创建那个答案?(我很好奇) - Sirac
@Sirac 大约花了1-2个小时。其中大部分时间都是重新学习matplotlib(和数学)。 - Veedrac

13

让我们简化一下问题。考虑扔两个骰子并将结果乘以扔一个骰子并将其平方的结果。在第一种情况下,您有1/36的机会掷出双1,因此乘积为1的机会也是1/36。另一方面,第二种情况显然有1/6的机会使平方为1。对于双6同样适用,因此当进行平方运算时,极端值更有可能出现。

当使用随机浮点数时,相比于获得两个极端值,您更不可能获得单个值,因此当平方时,非常小或非常大的值将比乘以两个独立值时更经常出现。


1
这就是为什么在列表的中间你会看到更相似的分布。由于随机数有可能返回零,所以你也会在那里得到偏斜的结果 - 请注意lst3有很多零。 - bsoist
好的,我现在明白了。我还需要再考虑一下,但现在更清楚了。我从未想过一个如此简单的问题会这么难理解。 - Sirac

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接