我已经多次阅读到,在HDF5中启用压缩可以提高读写性能。
我想知道在以下情况下,什么样的理想设置可以实现良好的读写性能:
data_df.to_hdf(..., format='fixed', complib=..., complevel=..., chunksize=...)
我已经在使用fixed
格式(即h5py
),因为它比table
更快。我的处理器性能很强,对磁盘空间不太关心。
我经常将DataFrame
的float64
和str
类型存储在大约2500行x9000列的文件中。
str
,因为我认为它存储为Object
。我还需要在几台不同的机器上运行这个程序。 - Mark Horvathblosc
压缩似乎可以达到或超越无压缩的性能。 - Mark Horvath