Weka K-Means聚类

8
有人能解释一下WEKA中K-Means聚类的输出实际上是什么吗?
例如:
kMeans


Number of iterations: 9

Within cluster sum of squared errors: 9434.911100488926

Missing values globally replaced with mean/mode

Cluster centroids:

                  Cluster#
Attribute         Full Data          0          1                           
                      (400)      (310)       (90)
=================================================
competency134        0.0425     0.0548          0  
competency207        0.0425     0.0548          0  
competency263          0.01     0.0129          0  
competency264          0.01     0.0129          0  
competency282          0.01     0.0129          0  
competency289          0.01     0.0129          0  

这些列中的数字实际上代表什么?虽然表格上方写着簇质心,但是如何确定两个簇的质心呢?如果有人能解释一下这些数字的含义,我将不胜感激。

如果有人有关于如何完成对找到的聚类进行轮廓评估的任何想法,那也太好了。

谢谢

4个回答

4
第一列提供整体人口重心。第二列和第三列分别提供群集0和1的重心。每行提供特定维度的重心坐标。
我认为您需要复习一下K-means。找到重心是算法的重要部分。重心是算法特定运行的结果,并不唯一 - 不同的运行可能会生成不同的重心集。
更多细节请参见Michael Abernethy的Weka聚类描述

4

这是第一步:

  1. 在可视化选项卡中将绘图保存为arff文件。

  2. 用weka打开并点击“edit”,你会自动看到每个实例属于哪个簇。

  3. 将此表复制到Excel中(以更容易可视化)

  4. 使用Excel或Matlab使用经典方法查找轮廓、内聚性和分离性。


1
我尝试过,但只能看到数据而无法看到聚类编号? - Atul
不需要应用过滤器,只需从weka集群可视化面板中保存文件为arff文件并在weka中打开即可完成此项工作。一个名为“cluster”的新属性将被创建。 - Supun

0

首先,聚类是一种描述性统计方法。 其次,Kmeans算法需要事先输入簇的数量,为了找到最优的簇数,需要使用几种统计方法。 第三,数字数据的质心是数据的算术平均值,这使得集群具有代表性。因此,这些数据代表了组数据。


-1

如果属性是名义的,则在簇中使用最频繁的值。 如果属性是数值型的,则在簇中使用平均值。 请查看此链接以获取更多详细信息。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接