38得票5回答
scikit-learn DBSCAN 内存使用情况

更新: 最终,我选择使用Anony-Mousse在下面建议的一种方法来对我的大型数据集进行聚类。即,使用ELKI的DBSCAN实现而不是scikit-learn的。它可以从命令行运行,并且在适当的索引下,可以在几小时内完成此任务。使用GUI和小样本数据集来确定要使用的选项,然后开始工作。值得一...

37得票2回答
Pandas数据帧对象是否适用于sklearn kmeans聚类?

数据集是 Pandas 数据帧。这是 sklearn.cluster.KMeans。 km = KMeans(n_clusters = n_Clusters) km.fit(dataset) prediction = km.predict(dataset) 这是我决定哪个实体属...

37得票4回答
使用Levenshtein距离进行文本聚类

我有一组(2k - 4k)小字符串(3-6个字符),想要对它们进行聚类。由于使用了字符串,之前在如何进行聚类(特别是字符串聚类)中的答案告诉我,Levenshtein距离是用作字符串距离函数的好方法。而且,由于我事先不知道聚类的数量,层次聚类是正确的选择,而不是k-means。 尽管我理解了...

37得票5回答
Scikit-learn凝聚聚类链接矩阵

我正在尝试绘制一个完全链接的 scipy.cluster.hierarchy.dendrogram,并发现scipy.cluster.hierarchy.linkage比sklearn.AgglomerativeClustering慢。 然而,sklearn.AgglomerativeClu...

36得票3回答
什么使得k-medoid中的距离度量“优于”k-means?

我正在阅读关于k-means聚类和k-medoid聚类之间的差异。 据说在k-medoid算法中使用成对距离测量有优势,而不是我们在k-means中找到的更为熟悉的平方欧几里得距离类型度量来评估方差。显然,这种不同的距离度量方式可以降低噪声和异常值。 我看到了这个说法,但我还没有看到任何关...

36得票4回答
如何进行聚类分析(特别是字符串聚类)?

我听说过聚类可以将相似的数据分组。我想了解它在字符串特定案例中是如何工作的。 我有一个包含超过100,000个不同单词的表格。 我希望能够识别出具有差异的相同单词(例如:house, house!!, hooouse, HoUse, @house, "house"等)。 为了识别相似性并...

35得票2回答
从seaborn clustermap中提取聚类

我正在使用seaborn clustermap创建聚类图表,视觉效果很好(此示例生成非常相似的结果)。 但是,我无法找出如何编程提取这些聚类。例如,在示例链接中,我该如何找到1-1 rh、1-1 lh、5-1 rh和5-1 lh形成了一个好的聚类?在视觉上很容易,但我试图使用查看数据和树状图...

35得票6回答
如何将“接近”的纬度/经度点分组?

我有一个用户提交的纬度/经度点数据库,试图将“接近”的点组合在一起。这里的“接近”是相对的,但现在似乎约为500英尺。 起初,我的想法是可以按照具有相同纬度/经度前3个小数位(大约是300x300的盒子,但随着远离赤道而变化)的行进行分组。 然而,这种方法似乎缺乏很多,“接近”不能显著不同...

34得票17回答
报童聚类算法

我需要帮忙根据特定标准选择或创建一个聚类算法。 想象一下,您正在管理报纸投递员。 您有一组街道地址,每个地址都有地理编码。 您希望将地址进行聚类,以便每个聚类分配给一个投递员。 投递员或聚类的数量不固定。如果需要,我可以随时雇用更多投递员或解雇他们。 每个聚类应该具有大约相同数量的地址。...

34得票1回答
最优地聚类一维数据?

有没有一篇介绍Ckmeans.1d.dp算法工作原理的论文? 或者,如何以最优方式在一维上进行K均值聚类?