从NumPy数组中选择特定的行和列

147

我一直在疯狂地试图找出我在这里做错了什么愚蠢的事情。

我正在使用NumPy,并且我有特定的行索引和列索引,我想从中进行选择。以下是我的问题要点:

import numpy as np

a = np.arange(20).reshape((5,4))
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [ 8,  9, 10, 11],
#        [12, 13, 14, 15],
#        [16, 17, 18, 19]])

# If I select certain rows, it works
print a[[0, 1, 3], :]
# array([[ 0,  1,  2,  3],
#        [ 4,  5,  6,  7],
#        [12, 13, 14, 15]])

# If I select certain rows and a single column, it works
print a[[0, 1, 3], 2]
# array([ 2,  6, 14])

# But if I select certain rows AND certain columns, it fails
print a[[0,1,3], [0,2]]
# Traceback (most recent call last):
#   File "<stdin>", line 1, in <module>
# ValueError: shape mismatch: objects cannot be broadcast to a single shape

为什么会发生这种情况?我应该能够选择第1、2和4行以及第1和第3列,正确的结果是:

a[[0,1,3], [0,2]] => [[0,  2],
                      [4,  6],
                      [12, 14]]

标记为 [tag:numpy-slicing] 以提高可查性。(同时,术语“slice”和“slicing”不出现在纯文本中,我们可以使用一些包含这些术语的重复内容) - smci
这是 https://dev59.com/b2Ik5IYBdhLWcg3wke3M 的副本。 - David John Coleman II
4个回答

141

如Toan所建议的那样,一个简单的技巧是先选择行,然后再选择那些列。

>>> a[[0,1,3], :]            # Returns the rows you want
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [12, 13, 14, 15]])
>>> a[[0,1,3], :][:, [0,2]]  # Selects the columns you want as well
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

[编辑] 内置方法: np.ix_

我最近发现 Numpy 提供了内置的一行代码,可以精确地执行 @Jaime 建议的操作,但不需要使用广播语法(这会导致可读性不足)。从文档中得知:

使用 ix_,可以快速构建索引数组来索引笛卡尔积。a[np.ix_([1,3],[2,5])] 返回数组 [[a[1,2] a[1,5]], [a[3,2] a[3,5]]]

因此,可以像这样使用它:

>>> a = np.arange(20).reshape((5,4))
>>> a[np.ix_([0,1,3], [0,2])]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

它的工作方式是按照Jaime建议的方式对齐数组,以便广播正确进行:

>>> np.ix_([0,1,3], [0,2])
(array([[0],
        [1],
        [3]]), array([[0, 2]]))

正如MikeC在评论中提到的那样,np.ix_有返回视图的优势,而我的第一个(编辑前)答案没有。这意味着您现在可以对索引数组进行赋值

>>> a[np.ix_([0,1,3], [0,2])] = -1
>>> a    
array([[-1,  1, -1,  3],
       [-1,  5, -1,  7],
       [ 8,  9, 10, 11],
       [-1, 13, -1, 15],
       [16, 17, 18, 19]])

4
在一些测试中,我发现np.ix_比选择第一列然后选择行的方法要快很多(通常在大小为1K-10K的方阵重建所有行和列的测试中快大约2倍)。 - Nathan

100

花式索引要求您为每个维度提供所有索引。您为第一个维度提供了3个索引,而仅为第二个维度提供了2个索引,因此出现错误。您需要做类似这样的操作:

>>> a[[[0, 0], [1, 1], [3, 3]], [[0,2], [0,2], [0, 2]]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])
当然,手写也是很痛苦的,所以你可以使用广播来帮助你:
>>> a[[[0], [1], [3]], [0, 2]]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

如果使用数组而不是列表进行索引,则执行此操作要简单得多:

>>> row_idx = np.array([0, 1, 3])
>>> col_idx = np.array([0, 2])
>>> a[row_idx[:, None], col_idx]
array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

7
谢谢,我不知道你可以这样做!广播很奇妙...学习了两年的Numpy后,我仍在适应中。 - Praveen
2
谢谢!虽然其他答案在正确返回所选矩阵方面回答了我的问题,但是此答案不仅解决了这个问题,还解决了分配问题(例如如何设置a [[0,1,3],[0,2]] = 0)。 - Mike C
1
@Jaime - 就在昨天,我发现了一个内置的一行代码,可以完美地实现你所建议的广播技巧:np.ix_ - Praveen
2
有人能解释一下为什么语法会像这样工作吗?它为什么适用于前两个示例但不适用于第三个示例?此外,将所需索引封装在它们自己的列表中如何解决这个问题?谢谢。 - Imad
2
为什么行需要嵌套而列不需要呢? - AturSams
1
这总是花费我几个小时,还要回到 stackoverflow 上查找记忆。 - imbr

10

用途:

 >>> a[[0,1,3]][:,[0,2]]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

或:

>>> a[[0,1,3],::2]
array([[ 0,  2],
   [ 4,  6],
   [12, 14]])

11
虽然这是正确的,但您应该考虑发布一些进一步的信息来解释为什么它是正确的。 - ebarr

7

使用np.ix_是最方便的方法(由其他人回答),但也可以按以下方式完成:

>>> rows = [0, 1, 3]
>>> cols = [0, 2]

>>> (a[rows].T)[cols].T

array([[ 0,  2],
       [ 4,  6],
       [12, 14]])

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接