我写了一个非常简单的脚本来创建一些机器学习所需的随机数据。
from random import randint
f = open('2014-07-17-1M_testdata_1Mx500.cvs', 'w', 50000000) #50MB write buffer
for i in range(1000000): #num rows
for i2 in range(500): #entries per row
f.write(str(randint(0,1000000))) #Return a random integer N such that a <= N <= b.
if(i2 != 499): #entries per row - 1
f.write(",")
f.write("\n")
if(i != 0 and i % 100000 == 0):
print(str(i) + " lines written")
f.close
然而,我发现一个CPU核心使用了100%的负载,并且数据创建所需的时间比磁盘速度允许的时间更长。对于创建大型数据集(100GB以上),有没有简单的方法来加快速度?也许可以尝试使用一些更快的随机库。