我有大约500个HDF5文件,每个文件大小约为1.5 GB。
这些文件都具有相同的结构,包含7个复合(int,double,double)数据集和可变数量的样本。
现在,我想通过连接每个数据集来连接所有这些文件,以便最终获得一个带有我的7个数据集的单个750 GB文件。
目前,我正在运行h5py脚本,它:
- 创建带有正确数据集的HDF5文件,最大为无限
- 按顺序打开所有文件
- 检查样本数(因为它是可变的)
- 调整全局文件大小
- 追加数据
这显然需要很多小时,您有关于改进此过程的建议吗?
我正在使用群集,因此可以并行使用HDF5,但我不擅长C编程,无法自己实现工具,我需要已经编写好的工具。