我在一组文本文档(约100个)上应用了聚类。我使用TfIdfVectorizer
将它们转换为Tfidf
向量,并将向量提供为输入scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10)
的参数。现在当我
model.fit()
print model.score()
如果所有文本文档非常相似,我的向量会得到一个非常小的值,如果文档非常不同,则会得到一个非常大的负值。这可以满足我发现哪些文档集合是相似的基本目的,但是否有人可以帮助我理解这个model.score()
值在拟合中具体表示什么?我如何使用这个值来证明我的发现?