我的情况如下:
1. 我有大约 7000 万个整数值分布在不同的文件中,针对 ~10 种数据类别(确切数字未知)。 2. 我读取这些多个文件,并创建一些 Python 对象来存储数据。这会涉及逐行读取每个文件并将其附加到 Python 对象中。因此,我将得到一个包含 7000 万个子数组的数组,每个子数组有 10 个值。 3. 我对这些数据进行一些统计处理。这将涉及向每行数据添加几个值(例如百分位数)。 4. 我将此对象存储在数据库中。
现在我从未处理过这种规模的数据。我的第一个想法是使用 Numpy 来更高效地处理数组内存。但是我听说在 Numpy 数组中,“append” 操作不鼓励使用,因为它不太高效。
那么你建议我使用什么呢?有关处理这种规模数据的一般提示吗?如果需要,我可以通过随机抽样将数据减少到其大小的 20%。
1. 我有大约 7000 万个整数值分布在不同的文件中,针对 ~10 种数据类别(确切数字未知)。 2. 我读取这些多个文件,并创建一些 Python 对象来存储数据。这会涉及逐行读取每个文件并将其附加到 Python 对象中。因此,我将得到一个包含 7000 万个子数组的数组,每个子数组有 10 个值。 3. 我对这些数据进行一些统计处理。这将涉及向每行数据添加几个值(例如百分位数)。 4. 我将此对象存储在数据库中。
现在我从未处理过这种规模的数据。我的第一个想法是使用 Numpy 来更高效地处理数组内存。但是我听说在 Numpy 数组中,“append” 操作不鼓励使用,因为它不太高效。
那么你建议我使用什么呢?有关处理这种规模数据的一般提示吗?如果需要,我可以通过随机抽样将数据减少到其大小的 20%。
my_array = numpy.zeros(length); for i, line in enumerate(file): ... my_array[i] = ...
- log0