在矩阵（numpy）中计算一行出现的次数

Question

在矩阵（numpy）中计算一行出现的次数

6

有没有比下面这种方式更好的方法，可以计算一个给定行在numpy 2D数组中出现的次数：

def get_count(array_2d, row):
    count = 0
    # iterate over rows, compare
    for r in array_2d[:,]:
        if np.equal(r, row).all():
            count += 1
    return count    

# let's make sure it works

array_2d = np.array([[1,2], [3,4]])
row = np.array([1,2])       

count = get_count(array_2d, row)
assert(count == 1)

- Nucular

1

如果这段代码能够正常运行，那么它应该被提交到代码审查而不是在这里。 - Carcigenicate

也相关: 计算每行在numpy.array中出现的次数 - Alex Riley

1

@Carcigenicate，像这样的问题（含蓄地）询问如何用更快的numpy方法替换循环在SO上非常普遍。这非常是一种“如何”类型的问题。这些问题确实会在CR上提出，但那里的论坛对演示更加挑剔，而numpy社区在那里也小得多。 CR更适合代码风格审查，我喜欢在SO上使用工作代码，这使得测试我的答案更容易。 - hpaulj

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Divakar · Accepted Answer

一种简单的方法是使用 broadcasting -

(array_2d == row).all(-1).sum()

考虑内存效率，这里提供一种方法，将array_2d中的每一行视为n维网格上的索引元组，并假设输入中有正数。

dims = np.maximum(array_2d.max(0),row) + 1
array_1d = np.ravel_multi_index(array_2d.T,dims)
row_scalar = np.ravel_multi_index(row,dims)
count = (array_1d==row_scalar).sum()

这里有一篇讨论与其相关的各个方面的文章。

注意: 使用np.count_nonzero来计算布尔值可能比使用.sum()更快。因此，请考虑在上述两种方法中都使用它。

以下是一个快速运行时间测试 -

In [74]: arr = np.random.rand(10000)>0.5

In [75]: %timeit arr.sum()
10000 loops, best of 3: 29.6 µs per loop

In [76]: %timeit np.count_nonzero(arr)
1000000 loops, best of 3: 1.21 µs per loop