我正在处理高维数据(约50.000-100.000个特征),需要对其进行最近邻搜索。我知道随着维度的增加,KD树的性能会变差,并且我也读到过通常所有空间划分数据结构在高维数据上执行穷举搜索。
此外,有两个重要因素需要考虑(按相关性排序):
- 精度:必须找到最近的邻居(而不是近似值)。
- 速度:搜索必须尽可能快。(创建数据结构所需的时间并不重要)。
因此,我需要一些建议:
- 执行k-NN的数据结构。
- 是否更好地使用aNN(近似最近邻)方法,并尽可能准确地设置它?
我正在处理高维数据(约50.000-100.000个特征),需要对其进行最近邻搜索。我知道随着维度的增加,KD树的性能会变差,并且我也读到过通常所有空间划分数据结构在高维数据上执行穷举搜索。
此外,有两个重要因素需要考虑(按相关性排序):
因此,我需要一些建议:
我认为在这样高维度的数据中进行聚类并不明智。存在维数灾难问题。
随着维度数量的增加,距离概念变得不太精确,因为给定数据集中任意两点之间的距离会趋于收敛。
我建议您找到一个好的距离度量方法,而不是直接在高维空间上使用欧几里得距离。
此页面列出了一些可能的解决方案, https://en.wikipedia.org/wiki/Clustering_high-dimensional_data
2.1 子空间聚类
2.2 投影聚类
2.3 混合方法
2.4 相关聚类