将文件句柄传递给Cython函数

4

我想使用cython编译一个Python函数,用于跳过一些记录读取二进制文件(而不是读取整个文件再切片,因为这样会耗尽内存)。我可以提供类似以下的代码:

    def FromFileSkip(fid, count=1, skip=0):            
        if skip>=0:
            data = numpy.zeros(count)
            k = 0
            while k<count:
                try:
                    data[k] = numpy.fromfile(fid, count=1, dtype=dtype)
                    fid.seek(skip, 1)
                    k +=1
                except ValueError:
                    data = data[:k]
                    break
            return data

然后我可以像这样使用该函数:

 f = open(filename)
 data = FromFileSkip(f,...

然而,对于使用cython编译函数“FromFileSkip”,我想要定义该函数中涉及的所有类型,包括文件处理程序“fid”。由于它不是一个“标准”类型,例如整数,因此我应该如何在cython中定义它的类型。


3
为什么要输入那个变量?因为它是Python对象,你不会获得任何加速。 - Bakuriu
如果你想将它分配给一个类变量,你需要使用 object 类型。 - Henry Gomersall
1
那么打文件句柄不会有太大变化吗?我以为除了一些特殊情况外,对所有变量进行类型设置与只对其中一些变量进行类型设置相比,可以提高性能。 - user2061949
你应该避免在循环内调用numpy.fromfile,因为它是一个Python函数,很可能会成为你所有努力的瓶颈。考虑使用低级别的C stdio方法来提高速度。这里有一些例子:https://groups.google.com/forum/?fromgroups=#!topic/cython-users/Px1nLMe7dZY - dmytro
文件句柄的类型是file,它是内置的。我不知道这是否有助于Cython。由于它是在C中实现的类型,因此可能能够避免通过解释器调用其方法。话虽如此,文档似乎暗示Cython对于任何非原始类型都没有做任何特殊处理。 - millimoose
1个回答

5

定义fid的类型并没有帮助,因为调用Python函数仍然很耗费资源。尝试使用"-a"标志编译您的示例以了解我的意思。但是,您可以使用低级C函数处理文件来避免在循环中产生Python开销。为了举例说明,我假设数据直接从文件开头开始,并且其类型为double

from libc.stdio cimport *                                                                

cdef extern from "stdio.h":
    FILE *fdopen(int, const char *)

import numpy as np
cimport numpy as np

DTYPE = np.double # or whatever your type is
ctypedef np.double_t DTYPE_t # or whatever your type is

def FromFileSkip(fid, int count=1, int skip=0):
    cdef int k
    cdef FILE* cfile
    cdef np.ndarray[DTYPE_t, ndim=1] data
    cdef DTYPE_t* data_ptr

    cfile = fdopen(fid.fileno(), 'rb') # attach the stream
    data = np.zeros(count).astype(DTYPE)
    data_ptr = <DTYPE_t*>data.data

    # maybe skip some header bytes here
    # ...

    for k in range(count):
        if fread(<void*>(data_ptr + k), sizeof(DTYPE_t), 1, cfile) < 0:
            break
        if fseek(cfile, skip, SEEK_CUR):
            break

    return data

请注意,cython -a example.pyx 的输出显示循环内部没有 Python 开销。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接