高效地将大型Pandas数据帧写入磁盘

Question

5

我正在寻找一种高效地使用Python/Pandas将大型数据框（250MB以上）写入和从磁盘读取的最佳方法。我已经尝试了《Python数据分析》中提到的所有方法，但性能非常令人失望。

这是一个更大项目的一部分，旨在探索将我们目前的统计/数据管理环境从Stata迁移到Python。当我比较我的测试中的读写时间与在Stata中获得的时间时，Python和Pandas通常需要超过20倍的时间。

我强烈怀疑问题出在我身上，而不是Python或Pandas。

有什么建议吗？

- user2928791

你可以重新阅读书中的HDF5段落，使用这个存储方式可以获得非常高效的持久化存储。如果你能解释并展示你测试过的代码，那么它可能会有所帮助，因为你的方法可能存在一些低效性。 - Zeugma

你怀疑自己出了问题的原因是什么？ - Christian Ternus

store = HDFStore('myfile.h5') store['df'] = df - user2928791

1

请执行以下代码：df.head()和df.info()。 - Jeff

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Jeff · Accepted Answer

使用HDFStore是最好的选择（书中没有涵盖很多，且已经有了很大改变）。您将发现其性能比任何其他序列化方法都要好得多。