从HDF5文件列表创建dask dataframe

Question

从HDF5文件列表创建dask dataframe

3

如何正确地从一组HDF5文件中创建dask.dataframe？实际上我想要做的是用dataframe做这个操作。

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)

- limx0

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- MRocklin · Accepted Answer

简而言之，如果您的个人文件可以使用 pd.read_hdf 读取，则可以使用 dd.read_hdf 和 dd.concat 进行操作。

import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)

但是在dd.read_hdf中直接支持这个习语会很有用（而且很容易）。我已经为此创建了一个问题，并将尝试在接下来的几天内解决它。