如何在二维数组中找到每行的最大值?

5

For example, I have this 2d array:

[
    [
     0.0,
     0.24320757858085434,
     0.14893361727523413,
     0.29786723455046826,
     0.18838778030301612,
     0.12160378929042717
    ],
    [
     0.23717478210768014,
     0.0,
     0.16770789675478251,
     0.20539938644228997,
     0.25981195646349819,
     0.1299059782317491
    ],
    [
     0.21681956134183847,
     0.250361664212574,
     0.0,
     0.23178986094050727,
     0.16390018248131957,
     0.13712873102376066
    ],
    [
     0.2933749527592357,
     0.20744741852633861,
     0.15681550844086434,
     0.0,
     0.18554661183269694,
     0.15681550844086434
    ],
    [
     0.20305810393286577,
     0.28716752453162431,
     0.12135042758887897,
     0.20305810393286577,
     0.0,
     0.18536584001376513
    ],
    [
     0.17877693623386351,
     0.19584032147389943,
     0.13848001934394774,
     0.23407395508684939,
     0.25282876786143976,
     0.0
    ]
]

这个问题涉及到概率的一组集合。如何找到每行最佳的概率?而且有没有办法找到例如第二、第三最佳的概率而不改变元素的位置?


可能是如何在Python中获取已排序数组的索引的重复问题。 - wwii
这个更好: 如何在假定n > k的情况下从n个数字列表中找到k个最大的数字 - 接受的答案(heapq解决方案)看起来很有前途。 - wwii
以下解决方案有没有帮到您?如果有,请考虑接受(左侧的绿色勾),这样其他用户就会知道。 - jpp
3个回答

6

您可以使用第三方库 numpy 轻松完成这个操作。首先创建一个 numpy 数组:

A = np.array([[0.0, 0.24320757858085434, 0.14893361727523413, 0.29786723455046826, 0.18838778030301612, 0.12160378929042717], [0.23717478210768014, 0.0, 0.16770789675478251, 0.20539938644228997, 0.25981195646349819, 0.1299059782317491], [0.21681956134183847, 0.250361664212574, 0.0, 0.23178986094050727, 0.16390018248131957, 0.13712873102376066], [0.2933749527592357, 0.20744741852633861, 0.15681550844086434, 0.0, 0.18554661183269694, 0.15681550844086434], [0.20305810393286577, 0.28716752453162431, 0.12135042758887897, 0.20305810393286577, 0.0, 0.18536584001376513], [0.17877693623386351, 0.19584032147389943, 0.13848001934394774, 0.23407395508684939, 0.25282876786143976, 0.0]])

返回每行的最大值:

res = A.max(axis=1)

对于每行的第二大元素,您可以使用numpy.sort。它会沿着一个轴进行排序(不是原地排序),然后提取第二大的元素(通过 -2)。

res = np.sort(A, axis=1)[:, -2]

这些都是矢量化计算。你可以使用列表嵌套列表来执行这些计算,但这并不可取。


谢谢!您建议使用什么代替列表的列表?元组? - btloseltwin
1
numpy 数组,我在第一行代码中展示了如何将列表转换为 numpy 数组。使用此格式可以方便地以矢量化的方式执行基于数组的计算。 - jpp
你能看出来为什么在第一行中它给了我第三大的数字而不是第二大的数字吗? - btloseltwin

3

@jpp的numpy解决方案可能是最好的选择,因为他们给出了原因。但是如果你想要纯Python实现,可以按照以下步骤进行:

#Get the maximum value for each list

[[max(i)] for i in my_list]

# [[0.29786723455046826], [0.2598119564634982], [0.250361664212574], 
# [0.2933749527592357], [0.2871675245316243], [0.25282876786143976]]

# Get the maximum 2 values for each list:

[sorted(i)[-2:] for i in my_list]

# Get the maximum 3 values for each list:

[sorted(i)[-3:] for i in my_list]

等等。请注意,这样做不会重新排序原始列表,因为排序发生在列表推导式中创建的子列表中。


0

你可以先将每一行按降序排序,然后根据需要选择第一或第二大的元素。

a = [
    [
     0.0,
     0.24320757858085434,
     0.14893361727523413,
     0.29786723455046826,
     0.18838778030301612,
     0.12160378929042717
    ],
    [
     0.23717478210768014,
     0.0,
     0.16770789675478251,
     0.20539938644228997,
     0.25981195646349819,
     0.1299059782317491
    ],
    [
     0.21681956134183847,
     0.250361664212574,
     0.0,
     0.23178986094050727,
     0.16390018248131957,
     0.13712873102376066
    ]
]

for i in range(0, len(a)):
    a[i].sort(reverse=True)

print "1st Largests:"
for row in a:
    print "\t" + str(row[0])

print "2nd Largests:"
for row in a:
    print "\t" + str(row[1])

提示:如果您担心效率问题,那么您需要寻找的是分区。Lomuto和Hoare分区方案是两个著名的方案。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接