我有一个1000维度的数据集,我正在尝试使用Python中的DBSCAN对数据进行聚类。但我很难理解应该选择什么指标以及为什么选择它。
可以有人解释一下吗?我该如何决定设置eps
值的大小?
我对数据的细节结构很感兴趣,因此将min_value
设置为2。现在我使用sklearn中预设的常规指标进行dbscan,但对于小的eps值,例如eps
<0.07,我得到了一些聚类但错过了许多点,而对于较大的值,我得到了几个较小的聚类和一个巨大的聚类。我明白这一切都取决于手头的数据,但我想知道如何以连贯和结构化的方式选择eps值以及要选择哪些指标!
我已经阅读了这个问题,那里的答案是关于10个维度的,而我有1000个 :) 我也不知道如何评估我的指标,因此如果提供更详细的说明,那会很有趣:评估您的指标!
编辑:或者有关已存在Python实现的高维数据聚类算法的其他提示。