我有一些数据来源于CSV文件,其中有几千列和一万行左右。每一列的数据类型相同,但不同的列具有不同类型的数据*。以前,我一直在将numpy的数据进行pickle处理并存储到磁盘上,但这很慢,尤其是因为通常我只想加载子集而不是全部列。 我想使用pytables将数据放入hdf5中,我的第一个方法...
http://pandas.pydata.org/pandas-docs/stable/io.html#indexing 我对Pandas HDF5 IO中的Data columns概念感到困惑,而且在谷歌上也几乎找不到相关信息。由于我正在涉足涉及HDF5存储的大型项目中,因此我希望能够清楚...
我需要处理大的3D数据块,并希望将它们存储在HDF5文件中(使用h5py或pytables)。我经常只想对这些数据块的部分进行分析,但是这个部分太大了,无法放入内存。我希望能够像使用numpy memmap一样,在不将数据复制到内存的情况下,以numpy风格的方式查看感兴趣的切片。据我所知,使...
我想了解PyTables如何管理大于内存大小的数据。这是PyTables代码中的注释(GitHub链接):# Nodes referenced by a variable are kept in `_aliveNodes`. # When they are no longer referenc...
PyTables本身不支持Python字典。我处理这个问题的方式是创建如下的数据结构: tables_dict = { 'key' : tables.StringCol(itemsize=40), 'value' : tables.Int32Col(), } ...
这个问题与"合并大量HDF5文件"有关。我有几个巨大的HDF5文件(~20GB压缩),无法放入RAM中。每个文件都存储了几个格式相同且索引不重叠的pandas.DataFrame。我想将它们连接起来,得到一个正确连接所有数据框的单个HDF5文件。一种方法是逐块读取每个文件,然后保存到单个文件中...
使用pytables时,据我所知似乎不支持scipy.sparse矩阵格式,因此要存储矩阵就需要进行一些转换,例如: def store_sparse_matrix(self): grp1 = self.getFileHandle().createGroup(self.getGrou...