这是一个懒人的问题。
我有4百万行的pandas DataFrame,想把它们保存成更小的pickle文件块。
为什么要分成更小的块呢? 为了更快地保存/加载它们。
我的问题是: 1)除了手动使用np.array_split拆分它们,是否有更好的方法(内置函数)将它们保存在更小的块中?
2)在读取块时是否有任何优雅的方式将它们粘合在一起,而不是手动粘合它们?
请随意建议任何适用于此工作的数据类型,除了pickle。
df = pd.DataFrame(np.random.rand(5, 5))
df
df.to_hdf('myrandomstore.h5', 'this_df', append=False, complib='blosc', complevel=9)
new_df = pd.read_hdf('myrandomstore.h5', 'this_df')
new_df