我的问题与测试Numpy数组是否包含给定行类似,但我需要对所链接问题中提供的方法进行一个非平凡扩展。该链接的问题是询问如何检查数组中的每一行是否与单独的另一行相同。这个问题的重点是针对多行执行此操作,一个显然不会导致另一个。
我想知道这个数组的每一行是否在给定的次要数组中:
假设我有一个数组:
array = np.array([[1, 2, 4], [3, 5, 1], [5, 5, 1], [1, 2, 1]])
我想知道这个数组的每一行是否在给定的次要数组中:
check_array = np.array([[1, 2, 4], [1, 2, 1]])
理想情况下,它应该看起来像这样:
is_in_check = array in check_array
is_in_check函数长这样:
is_in_check = np.array([True, False, False, True])
我知道对于非常小的数组,使用列表推导或类似的方法会更容易,但是这个过程必须具有大约106行的数组的性能表现。
我已经看到检查单个行的正确方法是:
is_in_check_single = any((array[:]==[1, 2, 1]).all(1))
但理想情况下,我希望将此过程推广到多行数据上,以便实现向量化处理。
在实践中,我期望每个数组具有以下维度:
array.shape = (1000000, 3)
check_array.shape = (5, 3)
array.shape
,check_array.shape
。同时了解数组中可能出现的唯一值的数量也会有所帮助(例如在此示例中1, 2, 3, 4, 5 -> 5
)。 - hilberts_drinking_problem