高效的方式部分读取大型numpy文件？

Question

高效的方式部分读取大型numpy文件？

pythonnumpy

33

我有一个巨大的numpy 3D张量，它存储在我的磁盘上的文件中（通常使用 np.load 读取）。这是一个二进制 .npy 文件。使用 np.load 后，我很快就会使用大部分内存。

幸运的是，在每次运行程序时，我只需要一个巨大张量的特定切片。该切片是固定大小的，并且其维度由外部模块提供。

如何做到最好？我能想到的唯一方法是将此numpy矩阵以某种方式存储到MySQL数据库中。但我肯定有更好/更容易的方法。如果可以帮助我构建我的3D张量文件，我也将很高兴。

如果我的张量本质上是稀疏的，答案是否改变？

- martianwars

文件类型的帮助。 - Denziloe

1

这是一个二进制文件，扩展名为.npy。使用np.save保存。 - martianwars

1

好问题。我不知道有没有这样的工具（但可能会有）。切片是否总是沿着同一轴？ - Denziloe

这里是一个开始的地方。张量的维度/数据类型是什么？ - Aaron

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Aaron · Accepted Answer

正常使用numpy.load，但一定要指定mmap_mode关键字，以便将数组保留在磁盘上，并且仅在访问时加载必要的位到内存中。

mmap_mode：{None,‘r+’,‘r’,‘w+’,‘c’}，可选项如果不是None，则使用给定的模式对文件进行内存映射（有关模式的详细说明，请参见numpy.memmap）。内存映射数组保留在磁盘上。但是，它可以像任何ndarray一样被访问和切片。内存映射对于访问大文件的小片段而不将整个文件读入内存特别有用。

这些模式在numpy.memmap中描述：

mode：{‘r+’, ‘r’, ‘w+’, ‘c’}，可选项以此模式打开文件：‘r’ 仅为读取打开现有文件。‘r+’ 打开现有文件以进行读取和写入操作。‘w+’ 创建或覆盖现有文件以进行读写操作。‘c’ 写时复制：赋值影响内存中的数据，但更改不会保存到磁盘上。磁盘上的文件是只读的。

*请确保不要使用'w+'模式，因为它会删除文件的内容。