如何在numpy中去交错数组?

3

我有一个numpy数组,以一种棘手的方式相互交错,我无法想出一种简单的方法来去交错。假设(84,132)矩阵如下:

0   100  200 ...
1   101  201 ...
2   102  202 ...
...
83  183  283 ...

我想从第一列中每四个元素中选一个,然后从第二行开始每四个元素中选一个,接着从第三行开始每四个元素中选一个,再从第四行开始每四个元素中选一个(得到四个新的列)。 然后我想重复这个过程来处理第二列,以此类推。因此我想要的结果是(21, 528):
0   1  2  3 100 101 102 103 200 ...
4   5  6  7 104 105 106 107 204 ...
8   9 10 11 108 109 110 111 208 ...
...
80 81 82 83 180 181 182 183 283 ...

我可以用循环来完成这个任务,将大小为 (84, 132) 的数组 a 转换为大小为 (21, 528) 的数组 b:

b = np.zeros(shape=(21, 132*4))
for y in range(0, 21):
  for x in range(0, 132):
    for s in range(0, 4):
      b[y, x * 4 + s] = a[y * 4 + s, x]

有没有更好的方法使用numpy操作来完成这个任务?

(上下文:这是8086处理器中微码ROM的物理排列,我正在尝试对其进行位解混并以进行分析。)

2个回答

4

通过借鉴通用的n维到n维转换思路来进行轴置换和重塑。 -

N = 4 # number of rows to split with
n = a.shape[1]
a.reshape(-1,N,n).swapaxes(1,2).reshape(-1,n*N)

1
你可以这样做:
#!/usr/bin/env python                                                                               

import numpy as np

# construct test data                                                                               
i = np.arange(132)
j = np.arange(84)
ii, jj = np.meshgrid(i, j)
a = 100 * ii + jj

# the operation                                                                                     
n0, n1 = a.shape
m = 4
b = np.concatenate([a[:,i].reshape((n0 // m, m)) for i in range(n1)], axis=1)

给出:

>>> a
array([[    0,   100,   200, ..., 12900, 13000, 13100],
       [    1,   101,   201, ..., 12901, 13001, 13101],
       [    2,   102,   202, ..., 12902, 13002, 13102],
       ...,
       [   81,   181,   281, ..., 12981, 13081, 13181],
       [   82,   182,   282, ..., 12982, 13082, 13182],
       [   83,   183,   283, ..., 12983, 13083, 13183]])

>>> b
array([[    0,     1,     2, ..., 13101, 13102, 13103],
       [    4,     5,     6, ..., 13105, 13106, 13107],
       [    8,     9,    10, ..., 13109, 13110, 13111],
       ...,
       [   72,    73,    74, ..., 13173, 13174, 13175],
       [   76,    77,    78, ..., 13177, 13178, 13179],
       [   80,    81,    82, ..., 13181, 13182, 13183]])

有时候如果省略了某些元素,就很难看清楚发生了什么。因此这里给出一个更小的数组(8x12)的案例,其中所有元素都可以显示出来。

array([[  0, 100, 200, 300, 400, 500, 600, 700],
       [  1, 101, 201, 301, 401, 501, 601, 701],
       [  2, 102, 202, 302, 402, 502, 602, 702],
       [  3, 103, 203, 303, 403, 503, 603, 703],
       [  4, 104, 204, 304, 404, 504, 604, 704],
       [  5, 105, 205, 305, 405, 505, 605, 705],
       [  6, 106, 206, 306, 406, 506, 606, 706],
       [  7, 107, 207, 307, 407, 507, 607, 707],
       [  8, 108, 208, 308, 408, 508, 608, 708],
       [  9, 109, 209, 309, 409, 509, 609, 709],
       [ 10, 110, 210, 310, 410, 510, 610, 710],
       [ 11, 111, 211, 311, 411, 511, 611, 711]])

array([[  0,   1,   2,   3, 100, 101, 102, 103, 200, 201, 202, 203, 300, 301, 302, 303, 400, 401, 402, 403, 500, 501, 502, 503, 600, 601, 602, 603, 700, 701, 702, 703],
       [  4,   5,   6,   7, 104, 105, 106, 107, 204, 205, 206, 207, 304, 305, 306, 307, 404, 405, 406, 407, 504, 505, 506, 507, 604, 605, 606, 607, 704, 705, 706, 707],
       [  8,   9,  10,  11, 108, 109, 110, 111, 208, 209, 210, 211, 308, 309, 310, 311, 408, 409, 410, 411, 508, 509, 510, 511, 608, 609, 610, 611, 708, 709, 710, 711]])

我认为通常代价很高的串联是不必要的。 - norok2
谢谢,那个解决方案给了我想要的矩阵。 - Ken Shirriff
@KenShirriff 我认为两种方法都可以,但另一种解决方案比我的更有效率。我尝试了一个12000x8000的输入数组,在我的机器上,Divakar的方法只需要0.6秒,而我的则需要3到4秒。 - alani

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接