得票数最多 'cluster-analysis' 问题 - 第3页

关联标签

38得票5回答

更新：最终，我选择使用Anony-Mousse在下面建议的一种方法来对我的大型数据集进行聚类。即，使用ELKI的DBSCAN实现而不是scikit-learn的。它可以从命令行运行，并且在适当的索引下，可以在几小时内完成此任务。使用GUI和小样本数据集来确定要使用的选项，然后开始工作。值得一...

37得票2回答

数据集是 Pandas 数据帧。这是 sklearn.cluster.KMeans。 km = KMeans(n_clusters = n_Clusters) km.fit(dataset) prediction = km.predict(dataset) 这是我决定哪个实体属...

37得票4回答

我有一组（2k - 4k）小字符串（3-6个字符），想要对它们进行聚类。由于使用了字符串，之前在如何进行聚类（特别是字符串聚类）中的答案告诉我，Levenshtein距离是用作字符串距离函数的好方法。而且，由于我事先不知道聚类的数量，层次聚类是正确的选择，而不是k-means。尽管我理解了...

37得票5回答

我正在尝试绘制一个完全链接的 scipy.cluster.hierarchy.dendrogram，并发现scipy.cluster.hierarchy.linkage比sklearn.AgglomerativeClustering慢。然而，sklearn.AgglomerativeClu...

36得票3回答

我正在阅读关于k-means聚类和k-medoid聚类之间的差异。据说在k-medoid算法中使用成对距离测量有优势，而不是我们在k-means中找到的更为熟悉的平方欧几里得距离类型度量来评估方差。显然，这种不同的距离度量方式可以降低噪声和异常值。我看到了这个说法，但我还没有看到任何关...

36得票4回答

我听说过聚类可以将相似的数据分组。我想了解它在字符串特定案例中是如何工作的。我有一个包含超过100,000个不同单词的表格。我希望能够识别出具有差异的相同单词（例如：house, house!!, hooouse, HoUse, @house, "house"等）。为了识别相似性并...

35得票2回答

我正在使用seaborn clustermap创建聚类图表，视觉效果很好（此示例生成非常相似的结果）。但是，我无法找出如何编程提取这些聚类。例如，在示例链接中，我该如何找到1-1 rh、1-1 lh、5-1 rh和5-1 lh形成了一个好的聚类？在视觉上很容易，但我试图使用查看数据和树状图...

35得票6回答

我有一个用户提交的纬度/经度点数据库，试图将“接近”的点组合在一起。这里的“接近”是相对的，但现在似乎约为500英尺。起初，我的想法是可以按照具有相同纬度/经度前3个小数位（大约是300x300的盒子，但随着远离赤道而变化）的行进行分组。然而，这种方法似乎缺乏很多，“接近”不能显著不同...

34得票17回答

我需要帮忙根据特定标准选择或创建一个聚类算法。想象一下，您正在管理报纸投递员。您有一组街道地址，每个地址都有地理编码。您希望将地址进行聚类，以便每个聚类分配给一个投递员。投递员或聚类的数量不固定。如果需要，我可以随时雇用更多投递员或解雇他们。每个聚类应该具有大约相同数量的地址。...

34得票1回答

有没有一篇介绍Ckmeans.1d.dp算法工作原理的论文？或者，如何以最优方式在一维上进行K均值聚类？