我有几个不同的数据框(如果需要,可以使用id进行连接),它们之间有关系。然而,并不总是同时需要它们。 既然它们非常大,将它们存储在单独的HDF存储中是否有意义?或者当我在同一文件中处理其他帧时,“未使用”的帧的成本可以忽略不计?
理论上,如果您可以根据IO子系统(不同的主轴,不同的存储系统等)将HDF文件分离,您可以尝试并行读取您的DF。实际上,我建议在您的硬件和数据上测试它以确保其可行性。另一个分离文件的优点是,如果您从包含多个DF的HDF存储中删除或大幅减小巨大的DF的大小,则其大小将保持不变。如果您有单独的文件,您可以简单地删除它并释放未使用的空间。