我在Mahout教程中运行了k-Means聚类算法,使用了合成控制数据,并想知道如何解释输出结果。我运行了clusterdump并收到了以下类似的输出(为节省空间而截断):
CL-592{n=57 c=30.726, 29.813...] r=[3.528, 3.597...]}
Weight : [props - optional]: Point:
1.0 : [distance=27.453962995925863]: [24.672, 35.261, 30.486...]
1.0 : [distance=27.675053294846002]: [25.592, 29.951, 34.188...]
1.0 : [distance=28.97727289419493]: [30.696, 32.667, 34.223...]
1.0 : [distance=21.999685652862784]: [32.702, 35.219, 30.143...]
...
CL-598{n=50 c=[29.611, 29.769...] r=[3.166, 3.561...]}
Weight : [props - optional]: Point:
1.0 : [distance=27.266203490250472]: [27.679, 33.506, 23.594...]
1.0 : [distance=28.749781351838173]: [34.727, 28.325, 30.331...]
1.0 : [distance=32.635136046420186]: [27.758, 33.859, 29.879...]
1.0 : [distance=29.328974057024624]: [29.356, 26.793, 25.575...]
能有人向我解释一下如何阅读这个内容吗?从我的理解来看,CL-__是一个群集ID,后面跟着n=群集中的点数、c=作为矢量的质心、r=作为矢量的半径,然后是群集中的每个点。这样正确吗?此外,我该如何知道哪个聚类点与哪个输入点匹配?例如,被描述为键值对的点,其中键是点的某种ID,而值是向量吗?如果不是,是否有一些方法可以设置它呢?