使用欧几里得距离或类似方法在Pyspark中寻找最近的邻居

4

我需要在pyspark DF中找到给定行的最近邻,使用欧几里得距离或其他方法。数据有20多列,超过一千行,所有值都是数字。

我正在尝试在pyspark中对一些数据进行过采样,由于mllib没有内置支持,所以我决定自己创建使用smote。

我的方法到目前为止是使用stringtoindex将所有分类距离转换为索引,这样我就可以找到欧几里得距离和邻居,从而执行smote。

我对spark和ml相当陌生。任何帮助将不胜感激。


你的问题是什么?请展示一下你已经尝试过的内容。Stack Overflow不是一个代码编写服务,但如果你至少尝试着自己解决问题,人们会愿意帮助你。请阅读如何创建一个最小、完整和可验证的示例如何提出一个好问题?。然后,更新并改进你的问题 - Martin Nyolt
进行了一些编辑,感谢您的建议。 - Taranjeet Singh
1个回答

2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接