我正在处理一个非常广泛的数据集(1005行* 590,718列,1.2G)。将这样一个大型数据集加载到Pandas数据框中会由于内存不足导致代码完全失败。
我知道Spark可能是处理大型数据集的Pandas的一个很好的替代方案,但在加载大数据时,在Pandas中有没有适宜的解决方案来减少内存使用?
我正在处理一个非常广泛的数据集(1005行* 590,718列,1.2G)。将这样一个大型数据集加载到Pandas数据框中会由于内存不足导致代码完全失败。
我知道Spark可能是处理大型数据集的Pandas的一个很好的替代方案,但在加载大数据时,在Pandas中有没有适宜的解决方案来减少内存使用?
pandas.read_csv(filename, chunksize = chunksize)
chunk_df = pd.read_csv(filename, iterator=True, chunksize=chunksize)
,df = pd.concat(chunk_df, ignore_index=True)
。 - grshankar