将函数应用于ndarray的0维

4

问题

  • 我有一个由arr定义的ndarray,它是每个维度长度为mn-维立方体。

  • 我想通过沿着维度n=0切片并将每个n-1-dim切片作为函数的输入来激活函数func

这似乎适用于map(),但我找不到合适的numpy变体。 np.vectorise似乎将n-1-张量拆分成单个标量条目。 apply_along_axisapply_over_axes也不合适。

我的问题是我需要传递任意函数作为输入,因此我不认为使用einsum是可行的解决方案。

问题

  • 您知道使用np.asarray(map(func, arr))的最佳numpy替代方案吗?

例子

我通过以下方式将示例数组arr定义为4-dim cube(或4-tensor):

m, n = 3, 4 
arr = np.arange(m**n).reshape((m,)*n)

I define an example function f,

def f(x):
    """makes it obvious how the np.ndarray is being passed into the function"""
    try: # perform an op using x[0,0,0] which is expected to exist
        i = x[0,0,0]
    except:
        print '\nno element x[0,0,0] in x: \n{}'.format(x)
        return np.nan
    return x-x+i

这个函数的预期结果res将保持相同的形状,但需要满足以下条件:
print all([(res[i] == i*m**(n-1)).all() for i in range(m)])

这适用于默认的map()函数,

res = np.asarray(map(f, a))
print all([(res[i] == i*m**(n-1)).all() for i in range(m)])
True

我期望 np.vectorizemap() 的工作方式相同,但它在标量条目中运行:

res = np.vectorize(f)(a)

no element x[0,0,0] in x: 
0
...

相关但未解决问题:https://dev59.com/onA75IYBdhLWcg3wSm64 - Alexander McFarlane
1个回答

2

假设arr是一个四维数组,而你的fn仅适用于三维数组,

np.asarray(map(func, arr))   # list(map(...)) for Py3

看起来非常合理。我会使用列表推导式的形式,但这是编程风格的问题。

np.asarray([func(i) for i in arr])

for i in arr 循环遍历arr的第一维度。实际上,它将arr视为3D数组列表。然后它将结果列表重新组合成4D数组。

np.vectorize 的文档可能需要更明确地说明函数采用标量。但是,它确实将值作为标量传递。请注意,np.vectorize 没有提供传递迭代轴参数的功能。当您的函数从多个数组中获取值时,它最有用,类似于:

 [func(a,b) for a,b in zip(arrA, arrB)]

它将zip的广播通用化,但它本质上是一个迭代解决方案。它不知道您func的内部结构,因此无法加速其调用。
np.vectorize最终会调用np.frompyfunc,后者稍微不那么通用,因此速度略快。但它也将标量传递给func。
np.apply_along/over_ax(e/i)s也在一个或多个轴上进行迭代。您可能会发现它们的代码很有启发性,但我认为它们并不适用于这里。
一种映射方法的变化是分配结果数组和索引:
In [45]: res=np.zeros_like(arr,int)
In [46]: for i in range(arr.shape[0]):
    ...:     res[i,...] = f(arr[i,...])
   

如果你需要在不同的轴上进行迭代,那么这可能会更容易。

你需要自己测定时间来确定哪个更快。

========================

以下是就地修改方式在第一维上进行迭代的示例:

In [58]: arr.__array_interface__['data']  # data buffer address
Out[58]: (152720784, False)

In [59]: for i,a in enumerate(arr):
    ...:     print(a.__array_interface__['data'])
    ...:     a[0,0,:]=i
    ...:     
(152720784, False)   # address of the views (same buffer)
(152720892, False)
(152721000, False)

In [60]: arr
Out[60]: 
array([[[[ 0,  0,  0],
         [ 3,  4,  5],
         [ 6,  7,  8]],

        ...

       [[[ 1,  1,  1],
         [30, 31, 32],
         ...

       [[[ 2,  2,  2],
         [57, 58, 59],
         [60, 61, 62]],
       ...]]])

当我遍历一个数组时,我得到的是从共同数据缓冲区上连续点开始的视图。如果我修改了这个视图,如上所述或者使用a[:]=...,我就修改了原始数组,不需要写回任何内容。但是不要使用a = ....,因为这会断开与原始数组的链接。

map()和生成器表达式的问题在于它们会重新分配ndarray的内存位置,对于大型数组来说这是很浪费的。我希望有一个numpy函数可以直接使用当前数组位置的现有内存指针。 - Alexander McFarlane
arr[i,...] = f(arr[i,...]) 将子数组放回原始数组。是否创建临时数组、副本或视图取决于 f 的具体操作。但我想知道您在numpy数组中如何理解使用 内存指针 - hpaulj
谢谢您的提示!我认为我比大多数人更理解,但在Python专家中可能是平均偏低的 - 这本书帮助了我很多,尤其是第2.3节和第3.1.1节。 - Alexander McFarlane
1
我将尝试编写一个示例函数 f,它会就地修改其输入参数 x,并且不进行最后一次赋值。 - hpaulj
谢谢 - 我正在操作大小高达48 ** 4甚至可能是48 ** 7的晶格,但后者我可能会使用CFortran,因此即使只是在我的代码中作为提醒,内存使用也值得考虑。 - Alexander McFarlane
我添加了一个简单的原地修改数组。 - hpaulj

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接