假设我有一个二维 numpy 数组,其值对应于标签或类别。例如,如果
我想做的是基本上构建一个字典,其中一个键对应于每个类别,其相应的值是一个元组列表,其中每个元组对应于输入矩阵的一个具有该键值的位置。换句话说,按其值对输入矩阵进行分组,并获得每个唯一值出现的位置列表。
目前为止,我有以下代码:
A = [[0, 0, 1, 1], [1, 1, 1, 0]]
,则位置 (0, 0), (0, 1), (1, 3)
对应于类别 '0',而位置 (0, 2), (0, 3), (1, 0)
等对应于类别 '1'。这是一个非常简单的例子,但是一般情况下,我将处理更多项的矩阵。我想做的是基本上构建一个字典,其中一个键对应于每个类别,其相应的值是一个元组列表,其中每个元组对应于输入矩阵的一个具有该键值的位置。换句话说,按其值对输入矩阵进行分组,并获得每个唯一值出现的位置列表。
目前为止,我有以下代码:
S = {i: [] for i in range(A.max() + 1)}
for i in range(A.shape[0]):
index = np.arange(A[i].shape[0])
sort_idx = np.argsort(A[i])
cnt = np.bincount(A[i])
result = np.split(index[sort_idx], np.cumsum(cnt[:-1]))
for j, k in enumerate(result):
S[j] += [(i, z) for z in k]
A是我的输入矩阵。在一个500x500的矩阵上运行平均需要大约0.4毫秒。尽管如此,我觉得可以通过更好地利用向量化来进一步提高性能。
请问有人可以指导我如何使它变得更简单和/或更快吗?感谢任何帮助!