我需要知道由k-means生成的簇中术语的数量。
甚至可以在此链接上找到可能的解决方案,内容如下。
以下是我的代码:
vect = TfidfVectorizer(input='filename', stop_words=stopwords_list, encoding='utf8', ngram_range=(1,2), min_df=3)
tf_idf_matrix = vect.fit_transform(list_of_files)
print(tf_idf_matrix)
kmeans_6 = KMeans(n_clusters=17, n_init=10, init="k-means++", max_iter=100)
clustter6 = kmeans_6.fit_predict(tf_idf_matrix)
clustter6
order_centroids = kmeans_6.cluster_centers_.argsort()[:, ::-1]
termos = list(vect.vocabulary_)
clusterlists = []
for i in range(17):
dummy_list = []
for ind in order_centroids[i]:
dummy_list.append('%s' % termos[ind])
clusterlists.append(dummy_list)
上述代码的输出如下:
clusterlists[0] = 52005 examples
clusterlists[1] = 52005 examples.
例如,我想要展示集群列表[0],例如3000个示例。 集群列表1呈现了3150个示例。 但是它显示了数据库中所有聚类索引的术语总值。
np.bincount(clustter6)
? - PatrickT