9得票1回答
使用PyTables,哪个更高效:scipy.sparse还是numpy密集矩阵?

使用pytables时,据我所知似乎不支持scipy.sparse矩阵格式,因此要存储矩阵就需要进行一些转换,例如: def store_sparse_matrix(self): grp1 = self.getFileHandle().createGroup(self.getGrou...

14得票2回答
PyTables与SQLite3插入速度比较

我购买了Kibot的股票数据,它非常庞大。我需要加载约125,000,000行数据(1000只股票*每只股票125k行/股票[自2010-01-01以来的1分钟线数据],每个股票都在一个CSV文件中,字段包括日期、时间、开盘价、最高价、最低价、收盘价和成交量)。我完全不懂Python(我选择它...

31得票3回答
将大型csv文件转换为hdf5格式

我有一个100M行的csv文件(实际上是许多单独的csv文件),总共84GB。我需要将其转换为一个带有单个浮点数据集的HDF5文件。在测试中,我使用了h5py而没有遇到任何问题,但现在我无法完成最终数据集,因为内存不足。 如何在不必将整个数据集存储在内存中的情况下写入HDF5?我希望看到实际...

9得票1回答
Python字典应该如何存储在PyTables中?

PyTables本身不支持Python字典。我处理这个问题的方式是创建如下的数据结构: tables_dict = { 'key' : tables.StringCol(itemsize=40), 'value' : tables.Int32Col(), } ...

7得票2回答
NumPy高效的大矩阵乘法

为了将大矩阵存储在磁盘上,我使用numpy.memmap。 以下是一个用于测试大矩阵乘法的示例代码: import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #cre...

13得票1回答
在Pandas中查询HDF5

我有一个包含18,619,211行数据的pandas dataframe对象存在hdf5文件中: date id2 w id 100010 1980-03-31 10401 0.00...

26得票3回答
pd.read_hdf 出现“无法将WRITABLE标志设置为此数组的True”错误。

运行以下代码: pd.read_hdf('myfile.h5') 会出现以下错误回溯信息: [[...一些更长的回溯信息]] ~/.local/lib/python3.6/site-packages/pandas/io/pytables.py in read_arra...

14得票1回答
Numpy和PyTables中的浮点异常

我有一个由PyTables生成的相当大的HDF5文件,我正在尝试在集群上读取它。当我读入一个单独块时,我遇到了NumPy的问题。让我们来看个例子: HDF5文件中数组的总形状为,In [13]: data.shape Out[13]: (21933063, 800, 3) 这个数组中的每个条...

10得票2回答
有没有一种方法可以获得一个类似于numpy视图的视图,以查看存储在hdf5文件中的数组的切片?

我需要处理大的3D数据块,并希望将它们存储在HDF5文件中(使用h5py或pytables)。我经常只想对这些数据块的部分进行分析,但是这个部分太大了,无法放入内存。我希望能够像使用numpy memmap一样,在不将数据复制到内存的情况下,以numpy风格的方式查看感兴趣的切片。据我所知,使...

30得票4回答
在Ubuntu上安装HDF5和PyTables

我正在尝试在Ubuntu 14.04上安装tables包,但似乎有问题。 我正在使用PyCharm及其软件包安装程序进行安装,但似乎抱怨HDF5软件包。 然而,似乎我找不到任何要在tables之前安装的hdf5软件包。 有人能解释一下需要遵循的步骤吗?