从HDF5文件列表创建dask dataframe

3

如何正确地从一组HDF5文件中创建dask.dataframe?实际上我想要做的是用dataframe做这个操作。

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)
1个回答

1
简而言之,如果您的个人文件可以使用 pd.read_hdf 读取,则可以使用 dd.read_hdfdd.concat 进行操作。
import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)

但是在dd.read_hdf中直接支持这个习语会很有用(而且很容易)。我已经为此创建了一个问题,并将尝试在接下来的几天内解决它。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接