Pyspark计算RDD中所有向量之间的自定义距离

4

我有一个RDD,其中包含类似下面的概率分布的密集向量

[DenseVector([0.0806, 0.0751, 0.0786, 0.0753, 0.077, 0.0753, 0.0753, 0.0777, 0.0801, 0.0748, 0.0768, 0.0764, 0.0773]),
 DenseVector([0.2252, 0.0422, 0.0864, 0.0441, 0.0592, 0.0439, 0.0433, 0.071, 0.1644, 0.0405, 0.0581, 0.0528, 0.0691]),
 DenseVector([0.0806, 0.0751, 0.0786, 0.0753, 0.077, 0.0753, 0.0753, 0.0777, 0.0801, 0.0748, 0.0768, 0.0764, 0.0773]),
 DenseVector([0.0924, 0.0699, 0.083, 0.0706, 0.0766, 0.0708, 0.0705, 0.0793, 0.09, 0.0689, 0.0758, 0.0743, 0.0779]),
 DenseVector([0.0806, 0.0751, 0.0785, 0.0753, 0.077, 0.0753, 0.0753, 0.0777, 0.0801, 0.0748, 0.0768, 0.0764, 0.0773]),
 DenseVector([0.0806, 0.0751, 0.0786, 0.0753, 0.077, 0.0753, 0.0753, 0.0777, 0.0801, 0.0748, 0.0768, 0.0764, 0.0773])

我希望能够计算一个向量与所有其他向量之间的相似度,并将结果存储在矩阵中。

我可以将整个RDD转换为矩阵,然后对每一行进行计算并将其与所有其他行计算距离。我想知道是否有更有效的方法可以使用pyspark RDD方法来完成这个任务。

1个回答

6
据我所知,没有一种函数可以在行之间进行余弦相似度计算。因此,您需要使用rdd.cartesian(rdd)以列格式创建行对,这将使所有行成对地匹配。接下来,您需要定义一个余弦相似度函数并将其映射到rdd上。最后,将结果转换为np.array并重新调整为6x6。
示例:
def cos_sim(row):
    dot_product = row[0].dot(row[1])
    norm_a = np.sqrt(np.sum(row[0] * row[0]))
    norm_b = np.sqrt(np.sum(row[1] * row[1]))
    sim = dot_product / (norm_a * norm_b)
    return sim

rdd2 = rdd.cartesian(rdd)
cosine_similarities = rdd2.map(lambda x: cos_sim(x)).collect()
cosine_similariteis = np.array(cosine_similarities).reshape((6,6))

谢谢。那会很有帮助,但这是否会是一项繁重的任务呢?无论如何,我应该以其他方式表示数据以使任务更简单。 - user2825083

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接