9得票2回答
Python中的大矩阵乘法 - 最佳选项是什么?

我有两个布尔稀疏方阵,大小约为80,000 x 80,000,从12BM的数据生成(当我使用GB的数据时,可能会产生数量级更大的矩阵)。 我想将它们相乘(这将产生一个三角形矩阵 - 但由于我没有限制点积以产生一个三角形矩阵,所以我不明白这一点)。 我想知道最好的乘法方法(内存和速度方面) ...

8得票1回答
HDF5文件在覆盖Pandas数据帧后会增加大小

我试图在hdf5文件中覆盖pandas数据框。每次这样做,文件大小都会增加,而存储的框架内容相同。如果我使用mode ='w',则会丢失所有其他记录。这是一个错误还是我漏了什么? import pandas df = pandas.read_csv('1.csv') for i in ran...

8得票1回答
PyTables读取随机子集

是否可以从HDF5(通过pyTables或最好是pandas)中读取随机子集的行?我有一个非常大的数据集,有数百万行,但仅需要几千个样本进行分析。如果从压缩的HDF文件中读取呢?

8得票1回答
在PyTables中存储和提取numpy日期时间数据

我希望能够将numpy的datetime64数据存储在PyTables的Table中,而且不使用Pandas。 目前为止我尝试过的 设置 In [1]: import tables as tb In [2]: import numpy as np In [3]: from datetim...

8得票6回答
Pytables和CSV在处理不是非常大的文件时的区别

我最近接触到了Pytables,发现它非常酷。很明显,对于非常大的数据集,它们比csv格式优越。我正在使用Python运行一些模拟。输出不是很大,比如200列和2000行。 如果有人两者都有经验,你能建议哪种格式对于这种不是非常大的数据集来说长期更方便吗?Pytables具有数据操作功能,并...

7得票2回答
pip安装tables失败,错误信息为ERROR:: Could not find a local HDF5 installation。

当我试图在Mac OSX上安装PyTables时,这里是我收到的详细错误信息。 calvin$ pip install tables Downloading/unpacking tables Downloading tables-2.4.0.tar.gz (8.9MB): 8.9MB d...

7得票1回答
在对表进行排序后,为什么查询速度会变得如此缓慢?

我有一个使用Pytables的Python程序,以简单的方式查询表格: def get_element(table, somevar): rows = table.where("colname == somevar") row = next(rows, None) i...

7得票2回答
使用PyTables构建一个巨大的NumPy数组

如何使用PyTables创建一个巨大的numpy数组。我尝试过以下方法,但是会出现"ValueError: array is too big."错误: import numpy as np import tables as tb ndim = 60000 h5file = tb.openFi...

7得票4回答
使用Python进行基于时间的数据分析

我有一个项目,其中物理传感器向服务器发送数据。数据是不规律发送的 - 在传感器被激活后发送,但不会少于20分钟。在服务器上,数据存储在Posgresql数据库中。 数据结构如下: Sensor Table sensor name - string sensor serial...

7得票2回答
NumPy高效的大矩阵乘法

为了将大矩阵存储在磁盘上,我使用numpy.memmap。 以下是一个用于测试大矩阵乘法的示例代码: import numpy as np import time rows= 10000 # it can be large for example 1kk cols= 1000 #cre...