Pandas:如何将大型数据框存储在同一HDF文件中?

3

我有几个不同的数据框(如果需要,可以使用id进行连接),它们之间有关系。然而,并不总是同时需要它们。

既然它们非常大,将它们存储在单独的HDF存储中是否有意义?或者当我在同一文件中处理其他帧时,“未使用”的帧的成本可以忽略不计?

2个回答

1
理论上,如果您可以根据IO子系统(不同的主轴,不同的存储系统等)将HDF文件分离,您可以尝试并行读取您的DF。实际上,我建议在您的硬件和数据上测试它以确保其可行性。
另一个分离文件的优点是,如果您从包含多个DF的HDF存储中删除或大幅减小巨大的DF的大小,则其大小将保持不变。如果您有单独的文件,您可以简单地删除它并释放未使用的空间。

0

如果未使用的框架在另一个文件或同一文件中,其成本是相同的。请问自己是否更好地将此SQL表存储在另一个数据库或同一数据库中。如果它们相关,请将它们保留在同一存储中。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接