1181得票16回答
使用pandas处理“大数据”工作流程

我尝试解决这个问题已经很多个月了,这期间我一直在学习pandas。我平时使用SAS工作,它非常适合其支持的外存储功能。但是,SAS由于其他原因而不好用。 有一天,我希望用Python和Pandas替换我的SAS,但目前我缺乏用于大型数据集的外存储工作流程。我说的不是需要分布式网络的“大数据”...

134得票13回答
如何在Python中读取HDF5文件

我正试图在Python中从hdf5文件中读取数据。使用h5py,我可以读取hdf5文件,但我无法弄清如何访问文件中的数据。 我的代码import h5py import numpy as np f1 = h5py.File(file_name,'r+') 这样可以工作...

114得票1回答
使用HDF5进行大型数组存储是否比使用平面二进制文件具有更快的分析速度或更低的内存使用率?

我正在处理大型三维数组,我经常需要以各种方式切片来进行各种数据分析。一个典型的“立方体”可能达到约100GB(未来可能会更大)。 似乎在Python中大型数据集的典型推荐文件格式是使用HDF5(h5py或pytables)。我的问题是:与存储为简单的平面二进制文件相比,使用HDF5存储和分析...

75得票7回答
NetCDF和HDF5哪个更适合存储科学数据?

有没有熟练使用 NetCDF 和 HDF5 存储科学数据的经验者,能够对它们进行一些优缺点的比较? 我使用过 HDF5 并希望通过 Java 进行读写,但是接口本质上是围绕 C 库的包装器,我发现这很令人困惑,因此 NetCDF 看起来很有趣,但我对它几乎一无所知。 编辑:我的应用程序“仅...

73得票2回答
HDF5 - 并发、压缩和I/O性能

关于HDF5性能和并发性,我有以下问题: HDF5支持并发写入吗? 除了并发考虑因素之外,HDF5在I/O性能方面如何(压缩率是否影响性能)? 由于我在Python中使用HDF5,它的性能如何与Sqlite相比? 参考资料: http://www.sqlite.org/faq.ht...

69得票9回答
HDF5与文件夹有何不同?

我正在开发一个涉及向文件夹添加元数据的开源项目。提供的(Python)API 可以让你像浏览和访问其他文件夹一样浏览和访问元数据,因为它本质上也是一个文件夹。 \folder\.meta\folder\somedata.json 然后我遇到了HDF5及其衍生物Alembic。在阅读Pyt...

67得票2回答
如何使用h5py将数据追加到一个特定的数据集中的hdf5文件中

我正在寻找一种使用Python(h5py)将数据追加到现有的.h5文件中的可能性。 我的项目简介:我正在尝试使用医学影像数据训练CNN。由于数据量巨大且在将数据转换为NumPy数组期间占用内存较多,因此我需要将“转换”拆分成几个数据块:加载和预处理前100个医学图像并将NumPy数组保存到h...

66得票5回答
如何在R中处理hdf5文件?

我有一个以 hdf5 格式存储的文件。我知道它应该是一个矩阵,但我想在 R 中读取这个矩阵以便进行研究。我看到有一个名为 h5r 的软件包可以帮助解决这个问题,但是我没有找到任何简单易懂的教程。请问是否有在线的教程?具体而言,如何使用此软件包读取 hdf5 对象,并提取矩阵? 更新 我发现...

53得票1回答
Python中哪个更快的加载方式:pickle还是hdf5?

给定一个大小为1.5 Gb的pandas数据帧列表,哪种格式最快速地加载压缩数据:pickle(通过cPickle)、HDF5或Python中的其他格式? 我只关心将数据最快速地加载到内存中 我不关心转储数据,它很慢,但我只需要执行一次。 我不关心磁盘上的文件大小

53得票7回答
导入错误:HDFStore需要PyTables模块,但没有找到tables模块。

import pandas as pd dfs = pd.HDFStore('xxxxx.h5') 抛出此错误: "ImportError: HDFStore需要PyTables,"未找到名为tables的模块"的问题" 我尝试安装PyTables,它需要Cython。 我已经安装了Cyt...