我想了解
每个数据集中可能有大约200,000行。
感谢任何帮助。
resize()
函数在numpy
数组和h5py dataset
上的效果。在我的应用中,我逐行读取文本文件,然后在解析数据后写入一个hdf5
文件。实现这个功能的好方法是什么?我应该将每一行新数据添加到numpy
数组中,并保持调整大小(增加轴)来调整numpy
数组(最终将完整的numpy数组写入h5py数据集),还是直接将每一行新数据添加到h5py dataset
中,从而在内存中调整h5py dataset
的大小。如果我们在每行后都保持调整大小,resize()
函数会如何影响性能?或者我应该在每100或1000行后调整大小?每个数据集中可能有大约200,000行。
感谢任何帮助。
np.fromfile
将整个文件读入numpy数组呢?这样你的速度会更快... - mgilson