114得票1回答
使用HDF5进行大型数组存储是否比使用平面二进制文件具有更快的分析速度或更低的内存使用率?

我正在处理大型三维数组,我经常需要以各种方式切片来进行各种数据分析。一个典型的“立方体”可能达到约100GB(未来可能会更大)。 似乎在Python中大型数据集的典型推荐文件格式是使用HDF5(h5py或pytables)。我的问题是:与存储为简单的平面二进制文件相比,使用HDF5存储和分析...

39得票1回答
HDF5比CSV占用更多的空间?

考虑以下例子: 准备数据:import string import random import pandas as pd matrix = np.random.random((100, 3000)) my_cols = [random.choice(string.ascii_uppercas...

39得票8回答
在 pandas 中使用 to_hdf 函数时出现了“缺少可选依赖项'tables'”的错误。

以下代码出现了错误。 以下代码出现了错误。 import pandas as pd df = pd.DataFrame({'a' : [1,2,3]}) df.to_hdf('temp.h5', key='df', mode='w') 这个让我报错了。 缺少可选依赖项“tab...

35得票2回答
改进pandas(PyTables?)HDF5表写入性能

我已经使用pandas进行研究大约两个月了,效果非常好。对于大量中等大小的跟踪事件数据集,pandas + PyTables(HDF5接口)可以让我使用所有我所知道和喜爱的Python工具来处理异构数据。 通常情况下,我在PyTables中使用Fixed(以前称为“Storer”)格式,因为...

31得票3回答
将大型csv文件转换为hdf5格式

我有一个100M行的csv文件(实际上是许多单独的csv文件),总共84GB。我需要将其转换为一个带有单个浮点数据集的HDF5文件。在测试中,我使用了h5py而没有遇到任何问题,但现在我无法完成最终数据集,因为内存不足。 如何在不必将整个数据集存储在内存中的情况下写入HDF5?我希望看到实际...

30得票4回答
在Ubuntu上安装HDF5和PyTables

我正在尝试在Ubuntu 14.04上安装tables包,但似乎有问题。 我正在使用PyCharm及其软件包安装程序进行安装,但似乎抱怨HDF5软件包。 然而,似乎我找不到任何要在tables之前安装的hdf5软件包。 有人能解释一下需要遵循的步骤吗?

26得票3回答
pd.read_hdf 出现“无法将WRITABLE标志设置为此数组的True”错误。

运行以下代码: pd.read_hdf('myfile.h5') 会出现以下错误回溯信息: [[...一些更长的回溯信息]] ~/.local/lib/python3.6/site-packages/pandas/io/pytables.py in read_arra...

26得票4回答
Python,PyTables,Java-将所有内容联系在一起

问题概述 如何使Python和Java相互配合以实现最佳效果? 详细解释 我面临一个比较复杂的情况,我会尽力通过图片和文字来解释。当前系统架构如下: 我们有一个基于代理模型的Java编写的模拟程序,可以选择将结果写入本地CSV文件或连接到Java服务器并写入HDF5文件。每次运行模拟产生...

24得票2回答
在Pandas中迭代地写入HDF5存储的数据

Pandas提供了以下示例,展示如何将Series、DataFrames和Panels存储到HDF5文件中: 准备一些数据:In [1142]: store = HDFStore('store.h5') In [1143]: index = date_range('1/1/2000', p...

22得票1回答
Pandas在HDFStore中对大数据进行“Group By”查询?

我在一个HDFStore中有约700万行数据,包含60多列。这些数据太多,我无法将其全部载入内存。我想根据一列"A"的值对数据进行分组聚合。Pandas的文档(拆分/聚合/组合)假设我已经将所有数据都读入了DataFrame中,但是我无法将整个存储库读入内存中的DataFrame中。在HDFS...