11得票5回答
如何在PyTables / HDF5中存储宽表格

我有一些数据来源于CSV文件,其中有几千列和一万行左右。每一列的数据类型相同,但不同的列具有不同类型的数据*。以前,我一直在将numpy的数据进行pickle处理并存储到磁盘上,但这很慢,尤其是因为通常我只想加载子集而不是全部列。 我想使用pytables将数据放入hdf5中,我的第一个方法...

11得票1回答
当字符串列的内容比已有内容更长时,使用HDFStore.append(string, DataFrame)会失败

我有一个通过HDFStore存储的Pandas DataFrame,它基本上存储了我正在进行的测试运行的摘要行。 每一行中的几个字段都包含长度可变的描述性字符串。 当我运行测试时,我会创建一个只有一行的新的DataFrame:def export_as_df(self): retu...

11得票1回答
高效输入大型光栅数据到PyTables的方法

我正在寻找一种高效的方法将20GB大小的栅格数据文件(GeoTiff)导入PyTables以进行进一步的外部计算。 目前,我使用Gdal将其读取为numpy数组,并使用以下代码将numpy数组写入pytables:import gdal, numpy as np, tables as tb ...

10得票1回答
Pandas/PyTables中的索引和数据列

http://pandas.pydata.org/pandas-docs/stable/io.html#indexing 我对Pandas HDF5 IO中的Data columns概念感到困惑,而且在谷歌上也几乎找不到相关信息。由于我正在涉足涉及HDF5存储的大型项目中,因此我希望能够清楚...

10得票2回答
有没有一种方法可以获得一个类似于numpy视图的视图,以查看存储在hdf5文件中的数组的切片?

我需要处理大的3D数据块,并希望将它们存储在HDF5文件中(使用h5py或pytables)。我经常只想对这些数据块的部分进行分析,但是这个部分太大了,无法放入内存。我希望能够像使用numpy memmap一样,在不将数据复制到内存的情况下,以numpy风格的方式查看感兴趣的切片。据我所知,使...

10得票3回答
PyTables处理数据的尺寸比内存大多倍。

我想了解PyTables如何管理大于内存大小的数据。这是PyTables代码中的注释(GitHub链接):# Nodes referenced by a variable are kept in `_aliveNodes`. # When they are no longer referenc...

9得票1回答
Python字典应该如何存储在PyTables中?

PyTables本身不支持Python字典。我处理这个问题的方式是创建如下的数据结构: tables_dict = { 'key' : tables.StringCol(itemsize=40), 'value' : tables.Int32Col(), } ...

9得票1回答
连接两个大的pandas.HDFStore HDF5文件。

这个问题与"合并大量HDF5文件"有关。我有几个巨大的HDF5文件(~20GB压缩),无法放入RAM中。每个文件都存储了几个格式相同且索引不重叠的pandas.DataFrame。我想将它们连接起来,得到一个正确连接所有数据框的单个HDF5文件。一种方法是逐块读取每个文件,然后保存到单个文件中...

9得票1回答
Pandas作为Flask应用程序快速数据存储的方式

我对 Pandas 的转换速度、数据加载速度和易用性印象深刻,我想利用这些优点(以及其他一些)来对一些大型数据集(约100-200k行,<20列)进行建模。目标是在一些计算节点上处理数据,并通过 Flask 在浏览器中查看数据集。 我目前正在使用 Postgres 数据库存储数据,但导入(来...

9得票1回答
使用PyTables,哪个更高效:scipy.sparse还是numpy密集矩阵?

使用pytables时,据我所知似乎不支持scipy.sparse矩阵格式,因此要存储矩阵就需要进行一些转换,例如: def store_sparse_matrix(self): grp1 = self.getFileHandle().createGroup(self.getGrou...