我正在将一个大型文本文件转换为hdf存储,以期更快地访问数据。 转换效果不错,但是从csv文件读取时未使用并行方式。速度非常慢(在SSD上处理1GB文本文件需要约30分钟,因此我的猜测是它不受IO限制)。
有没有办法让它在多个线程中并行读取?由于可能很重要,所以我目前被迫在Windows下运行 - 以防万一会有任何区别。
from dask import dataframe as ddf
df = ddf.read_csv("data/Measurements*.csv",
sep=';',
parse_dates=["DATETIME"],
blocksize=1000000,
)
df.categorize([ 'Type',
'Condition',
])
df.to_hdf("data/data.hdf", "Measurements", 'w')