Weka K-Means聚类

Question

Weka K-Means聚类

8

有人能解释一下WEKA中K-Means聚类的输出实际上是什么吗？

例如：

kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0

这些列中的数字实际上代表什么？虽然表格上方写着簇质心，但是如何确定两个簇的质心呢？如果有人能解释一下这些数字的含义，我将不胜感激。

如果有人有关于如何完成对找到的聚类进行轮廓评估的任何想法，那也太好了。

谢谢

- Chris Taylor

4个回答

4

这是第一步：

在可视化选项卡中将绘图保存为arff文件。
用weka打开并点击“edit”，你会自动看到每个实例属于哪个簇。
将此表复制到Excel中（以更容易可视化）
使用Excel或Matlab使用经典方法查找轮廓、内聚性和分离性。

- koko.auth

1

我尝试过，但只能看到数据而无法看到聚类编号？ - Atul

不需要应用过滤器，只需从weka集群可视化面板中保存文件为arff文件并在weka中打开即可完成此项工作。一个名为“cluster”的新属性将被创建。 - Supun

0

首先，聚类是一种描述性统计方法。其次，Kmeans算法需要事先输入簇的数量，为了找到最优的簇数，需要使用几种统计方法。第三，数字数据的质心是数据的算术平均值，这使得集群具有代表性。因此，这些数据代表了组数据。

- nhegroj

-1

如果属性是名义的，则在簇中使用最频繁的值。如果属性是数值型的，则在簇中使用平均值。请查看此链接以获取更多详细信息。

- Gaurav

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Yuval F · Accepted Answer

第一列提供整体人口重心。第二列和第三列分别提供群集0和1的重心。每行提供特定维度的重心坐标。

我认为您需要复习一下K-means。找到重心是算法的重要部分。重心是算法特定运行的结果，并不唯一 - 不同的运行可能会生成不同的重心集。

更多细节请参见Michael Abernethy的Weka聚类描述。