我想创建一个n列的向量,每个向量长度为x,需要满足以下条件:
i) 每个向量的第i个分量(例如,x[i])都有最小值和最大值。最小值和最大值以百分比表示。
ii) 每列的总和为1。
iii) 我想确保平均地采样整个空间。
我编写了以下程序,名为'gen_port',它接受两个向量,包含向量的下限和上限,以及要生成的随机向量数(例如,N)。
因此,例如,如果我正在生成由以下向量描述的10列向量:
然而,如果下界和上界的值不相同,我希望能够填充向量。例如,如果:
我希望能够生成100,000个方案,以便在下限和上限定义的空间内均匀采样。但是我遇到了困难,因为当前函数会在向量被下限和上限翻译后进行归一化处理。
所以,我有一个明显的第一个问题 - 如何修改常规程序以适应大多数情况?
另外:
i)这种方法正确吗?例如,我通过此实现引入了任何偏差吗?
ii)是否有更快和/或更具“Python风格”的方法来完成此操作?对于n = 1,000,000和x = 35,需要大约15分钟。
i) 每个向量的第i个分量(例如,x[i])都有最小值和最大值。最小值和最大值以百分比表示。
ii) 每列的总和为1。
iii) 我想确保平均地采样整个空间。
我编写了以下程序,名为'gen_port',它接受两个向量,包含向量的下限和上限,以及要生成的随机向量数(例如,N)。
def gen_port (lower_bound, upper_bound, number):
import random
# Given vector description of minimum and maximum, return an array of 'number' vectors, each of which sums to 100%
# We generate RVs, scale them by upper and lower bounds, then normalize.
values = np.random.random((len(lower_bound),number)) # create big array of RVs.
for n in range (0,number):
for i in range (0, len(lower_bound)):
values[i,n] = np.float(lower_bound[i]+ values[i,n]*(upper_bound[i]-lower_bound[i])) # scale
return values
因此,例如,如果我正在生成由以下向量描述的10列向量:
lower_bound = [0.0,0.0,0.0,0.0]
upper_bound = [0.50,0.50,0.50,0.50]
gen_ports(lower_bound, upper_bound, 10)
[Out]
array([[ 0.15749895, 0.21279324, 0.35603417, 0.27367365],
[ 0.2970716 , 0.48189552, 0.04709743, 0.17393545],
[ 0.20367186, 0.47925996, 0.21349772, 0.10357047],
[ 0.29129967, 0.15936119, 0.26925573, 0.28008341],
[ 0.11058273, 0.2699138 , 0.39068379, 0.22881968],
[ 0.21286622, 0.39058314, 0.33895212, 0.05759852],
[ 0.18726399, 0.37648587, 0.32808714, 0.108163 ],
[ 0.03839954, 0.24170767, 0.40299362, 0.31689917],
[ 0.35782691, 0.31928643, 0.24712695, 0.0757597 ],
[ 0.25595576, 0.08776559, 0.16836131, 0.48791733]])
然而,如果下界和上界的值不相同,我希望能够填充向量。例如,如果:
[In]:
lower_bound = [0.0,0.25,0.25,0.0]
upper_bound = [0.50,0.50,0.75,1.0]
gen_ports(lower_bound, upper_bound, 100000)
结果不等于1(以下仅包括10个样本):
[Out]:
array([[ 0.16010701, 0.31426425, 0.38776233, 0.1378664 ],
[ 0.00360632, 0.37343983, 0.57538205, 0.0475718 ],
[ 0.28273906, 0.2228893 , 0.1998151 , 0.29455654],
[ 0.06602521, 0.21386937, 0.49896407, 0.22114134],
[ 0.17785613, 0.33885919, 0.25276605, 0.23051864],
[ 0.07223014, 0.19988808, 0.16398971, 0.56389207],
[ 0.14320281, 0.14400242, 0.18276333, 0.53003144],
[ 0.04962725, 0.2578919 , 0.19029586, 0.50218499],
[ 0.01619681, 0.21040566, 0.30615235, 0.46724517],
[ 0.10905285, 0.23641745, 0.40660215, 0.24792755]])
我希望能够生成100,000个方案,以便在下限和上限定义的空间内均匀采样。但是我遇到了困难,因为当前函数会在向量被下限和上限翻译后进行归一化处理。
所以,我有一个明显的第一个问题 - 如何修改常规程序以适应大多数情况?
另外:
i)这种方法正确吗?例如,我通过此实现引入了任何偏差吗?
ii)是否有更快和/或更具“Python风格”的方法来完成此操作?对于n = 1,000,000和x = 35,需要大约15分钟。