如何计算numpy数组中一对行之间的欧几里得距离

4
我有一个类似于 numpy 数组的变量:
import numpy as np
a = np.array([[1,0,1,0],
             [1,1,0,0],
             [1,0,1,0],
             [0,0,1,1]])

我将计算每一对行之间的欧几里得距离。
from scipy.spatial import distance
for i in range(0,a.shape[0]):
    d = [np.sqrt(np.sum((a[i]-a[j])**2)) for j in range(i+1,a.shape[0])]
    print(d)

[1.4142135623730951, 0.0, 1.4142135623730951]

[1.4142135623730951, 2.0]

[1.4142135623730951]

[]

由于我需要在一个巨大的 numpy 数组上运行此代码,是否有更好的 Pythonic 方法?


这些点是否具有任意维度,还是总是4D? - Willem Van Onsem
你看过 distance.pdist 吗?用 distance.pdist(a) 应该可以解决问题。最终输出应该是什么样的? - Divakar
在所有行向量对之间的欧几里得距离中,我想要最远的k个向量。@Divakar - Rashmi Singh
@divakar 先生,那个有效了。 - Rashmi Singh
另外,也可以看一下 KDTree - https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.spatial.KDTree.html - Divakar
3个回答

15

如果想要更加“优雅”的话,您可以使用scikitlearn中的pairwise euclidean distance:

from sklearn.metrics.pairwise import euclidean_distances
euclidean_distances(a,a)
与单个数组具有相同的输出。
array([[ 0.        ,  1.41421356,  0.        ,  1.41421356],
       [ 1.41421356,  0.        ,  1.41421356,  2.        ],
       [ 0.        ,  1.41421356,  0.        ,  1.41421356],
       [ 1.41421356,  2.        ,  1.41421356,  0.        ]])

我认为它给出的是每对点之间的欧几里得距离,但我想要在每对行之间计算。考虑到每行表示一个一维向量。 - Rashmi Singh
很抱歉,在我的问题中我忘了提到一行是一个一维向量。 - Rashmi Singh
那个有效。谢谢。我搞错了。每个条目都是mXn数组中第i行和第j行之间的距离,其中i < j < m。 - Rashmi Singh

11

为了完整起见,einsum通常被用于距离计算。

a = np.array([[1,0,1,0],
         [1,1,0,0],
         [1,0,1,0],
         [0,0,1,1]])

b = a.reshape(a.shape[0], 1, a.shape[1])

np.sqrt(np.einsum('ijk, ijk->ij', a-b, a-b))

array([[ 0.        ,  1.41421356,  0.        ,  1.41421356],
       [ 1.41421356,  0.        ,  1.41421356,  2.        ],
       [ 0.        ,  1.41421356,  0.        ,  1.41421356],
       [ 1.41421356,  2.        ,  1.41421356,  0.        ]])

0

我使用了itertools.combinationsnp.linalg.norm来计算差向量的欧几里得距离:

import numpy as np
import itertools
a = np.array([[1,0,1,0],
              [1,1,0,0],
              [1,0,1,0],
              [0,0,1,1]])

print([np.linalg.norm(x[0]-x[1]) for x in itertools.combinations(a, 2)])

为了理解,请看来自docs的示例:
combinations('ABCD', 2)会得到AB AC AD BC BD CD。在您的情况下,ABCD是矩阵a中的行,因此出现在上述代码中的x[0]-x[1]a行向量之间的差向量。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接