Python中曲线的距离矩阵

Question

Python中曲线的距离矩阵

9

我有一组由2D数组（点数，坐标数）定义的曲线。我正在使用豪斯多夫距离为它们计算距离矩阵。我的当前代码如下。不幸的是，当每个曲线都有50-100个3D点时，500-600个曲线的速度太慢了。有没有更快的方法？

def distanceBetweenCurves(C1, C2):
    D = scipy.spatial.distance.cdist(C1, C2, 'euclidean')

    #none symmetric Hausdorff distances
    H1 = np.max(np.min(D, axis=1))
    H2 = np.max(np.min(D, axis=0))

    return (H1 + H2) / 2.

def distanceMatrixOfCurves(Curves):
    numC = len(Curves)

    D = np.zeros((numC, numC))
    for i in range(0, numC-1):
        for j in range(i+1, numC):
            D[i, j] = D[j, i] = distanceBetweenCurves(Curves[i], Curves[j])

    return D

- ahmethungari

scipy.spatial.distance.cdist 是慢的部分还是 distanceMatrixOfCurves 里面的双重循环？如果这些曲线是凸的，那么可能可以优化第一个潜在的缓慢部分。这些曲线是否相交或包含在其他曲线中？我觉得你可以重用早先发现的距离来加速新的计算。当然，这只是胡言乱语，我自己也遇到了类似于 min(min(..)) 测量的问题，并且难以将这些考虑到一般情况中。你有尝试过或思考过代码之外的内容吗？ - mmgp

@ahmethungari，你应该对你的代码进行性能分析，以确保（使用cProfile + runsnakerun来解释结果非常好）找到确切的瓶颈所在。我对这些事情没有很好的感觉，但是如果你可以添加一些生成一些小例子数据的代码，那么帮助你就会更容易了。 - YXD

2

你真的需要完整的矩阵D吗？还是只需要上三角或下三角矩阵就可以了？这种形式的D[i,j] = D[j,i] =...对于数据局部性来说绝对不好。
你尝试过使用列表推导式或map代替双重循环吗？

- ev-br

这并没有以任何方式减少计算复杂度。就目前而言，我认为原帖作者只会得到一些实现上的小改进，例如使用库/语言/包X，因为它可以比原来运行Y（其中Y可能是相同的方法，也许有一些小修改）快！等等。我希望我在这里被证明是错误的。 - mmgp

@Zhenya 我不需要整个矩阵，你是对的。你认为列表推导比循环快吗？我可以试一下... - ahmethungari

显示剩余3条评论

3个回答

3

我最近在类似问题的这里回复了： 3D网格之间的Hausdorff距离希望这可以帮到你，我需要对25 x 25,000个点进行成对比较（总共是25 x 25 x 25,000个点），我的代码运行时间从1分钟到3-4小时不等（取决于点数）。我没有看到数学上提高速度的太多选择。

另一种选择是使用不同的编程语言（C / C ++）或将此计算引入GPU（CUDA）。我现在正在尝试CUDA方法。

2015年3月12日编辑：

我通过进行并行CPU计算来加速此比较。那是最快的方法。我使用了“pp”软件包（“parallel python”）的很好的示例，并在三台不同的计算机和python组合上运行。不幸的是，我一直遇到python 2.7 32位的内存错误，因此我安装了WinPython 2.7 64位和一些实验性的numpy 64位软件包。

所以对我来说，这个工作相当有帮助，而且没有CUDA那么复杂...祝好运

- Akos Gulyban

0

你可以尝试以下几种方法：

使用numpy-MKL，它使用英特尔高性能数学核心库而不是numpy；
使用Bootleneck进行数组函数处理；
使用Cpython进行计算。

- foool

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- j-i-l · Accepted Answer

你的问题可能与这个问题有关。

这是一个比较困难的问题。一种可能的方法是自己实现欧几里得距离，完全放弃scipy并利用pypy的JIT编译器。但最有可能的情况是这样做不会让你获得太多好处。

个人而言，我建议您使用C语言编写程序。

问题不在于实现，而在于解决问题的方式。您选择了通过计算度量空间子集中每对不同点的欧几里得距离来采用暴力方法。这是计算密集型的：

假设您有500条曲线，每条曲线都有75个点。使用暴力方法，您将需要计算500 * 499 * 75 * 75 = 1,403,437,500次欧几里得距离。因此，这种方法需要很长时间才能运行。

我不是这方面的专家，但我知道Hausdorff距离在图像处理中被广泛使用。我建议您浏览文献以获取速度优化算法。一个起点可能是这篇文章，或者这篇文章。此外，在Hausdorff距离中经常与之提到的是Voroni图。

希望这些链接可以帮助您解决问题。