如何正确地从一组HDF5文件中创建dask.dataframe?实际上我想要做的是用dataframe做这个操作。 dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')] arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets] x = da.stack(arrays, axis=0)
简而言之,如果您的个人文件可以使用 pd.read_hdf 读取,则可以使用 dd.read_hdf 和 dd.concat 进行操作。import dask.dataframe as dd dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')] df = dd.concat(dfs) 但是在dd.read_hdf中直接支持这个习语会很有用(而且很容易)。我已经为此创建了一个问题,并将尝试在接下来的几天内解决它。