我希望使用Pandas实时处理系列数据。每秒钟,我需要将最新的观测值添加到现有的系列中。我的系列被分组到DataFrame中,并存储在HDF5文件中。
这是我目前的做法:
这是我目前的做法:
>> existing_series = Series([7,13,97], [0,1,2])
>> updated_series = existing_series.append( Series([111], [3]) )
这是最有效的方式吗?我已经阅读了无数帖子,但没有找到专注于高频数据效率方面的内容。
编辑:我刚刚了解了 shelve 和 pickle 模块。它们似乎可以实现我想做的事情,即将列表保存在磁盘上。由于我的列表很大,是否有任何方法可以不将整个列表加载到内存中,而是一次性高效地附加值?
append
是concat
的包装器,因此concat
可能会稍微更有效率,但正如@BrenBarn所说,Pandas可能不适合每秒更新HDF5文件。如果您绝对需要Pandas,是否可以收集一系列Series并定期更新文件呢? - Matti John