28得票5回答
在执行 do_one(nmeth) 时发生错误:外部函数调用中的 NA/NaN/Inf(参数1)。

我有一个数据表(“norm”),其中包含以下形式的数字 - 至少在我所看到的范围内 - 归一化值: 当我执行时k <- kmeans(norm,center=3) 我收到了以下错误:Error in do_one(nmeth) : NA/NaN/Inf in foreign fun...

26得票1回答
使用Python中的scikit-learn kmeans对文本文档进行聚类

我需要实现scikit-learn的kMeans来对文本文档进行聚类。示例代码本身可以正常工作,但需要使用一些20newsgroups数据作为输入。我想要使用相同的代码来对如下所示的文档列表进行聚类: documents = ["Human machine interface for lab...

26得票2回答
将n个点分成k个大小相等的簇。

可能重复: K-means算法变种,每个簇的大小相等 编辑:就像casperOne指出的那样,这个问题是一个重复的问题。无论如何,这里有一个更一般化的问题,涵盖了这个问题:https://stats.stackexchange.com/questions/8744/clustering-p...

26得票2回答
通过间隔统计和预测强度估计聚类数量

我正在尝试将gap统计和预测强度的R实现http://edchedch.wordpress.com/2011/03/19/counting-clusters/翻译为Python脚本,以估计3个群集的鸢尾花数据的数量。但是,每次运行时得到的结果都不同,估计出的群集数量与实际的3个相差很大。图表显...

26得票2回答
k-means的时间复杂度是什么?

我正在阅读 k-means聚类 的维基百科页面。根据算法,我认为复杂度为O(n*k*i)(其中n = 元素总数,k = 群集迭代次数)。 那么,有人能解释一下维基百科中这个陈述的含义以及它是如何成为NP难题的吗? 如果 k 和 d(维度)固定,则该问题可以在时间 O(ndk+1 lo...

26得票6回答
快速(< n^2)聚类算法

我有一百万个五维点需要分成 k 个簇,其中 k <<100 万。在每个簇中,任何两个点都不应该离得太远(例如,它们可以是具有指定半径的边界球)。这意味着可能必须有许多大小为1的簇。 但是!我需要运行时间明显低于n ^ 2。 n log n左右就可以了。我做这个聚类的原因是为了避免计算所有n个...

25得票2回答
K-Means: Lloyd,Forgy,MacQueen,Hartigan-Wong

我正在使用R中的K-Means算法,想要了解在stats包中"kmeans"函数可用的4个算法Lloyd,Forgy,MacQueen和Hartigan-Wong之间的区别。 然而,我没有得到一个充分的答案。 我只找到了一些罕见的信息:(访问http://en.wikibooks.org/...

24得票3回答
kmeans散点图:对每个聚类绘制不同颜色的点。

我正在尝试绘制kmeans输出的散点图,该图将同一主题的句子聚类在一起。我面临的问题是绘制属于每个聚类的点的特定颜色。sentence_list=["Hi how are you", "Good morning" ...] #i have 10 setences km = KMeans(n_c...

24得票3回答
使用Python实现基于余弦相似度的K-means算法

我正在尝试在Python中实现Kmeans算法,该算法将使用余弦距离作为距离度量,而不是欧几里德距离。 我知道使用不同的距离函数可能会导致灾难性后果,因此应该小心处理。使用余弦距离作为度量强制我更改平均函数(根据余弦距离的平均值必须是规范化向量的逐元素平均值)。 我看到了这个手动覆盖skle...

24得票5回答
Python scikit-learn 中每次运行后聚类结果的变化

我有一堆句子,想使用scikit-learn的谱聚类对它们进行聚类。我已经运行了代码并得到了结果,没有问题。但是,每次运行时都会得到不同的结果。我知道这是初始化的问题,但我不知道该如何解决。这是我的一部分运行在句子上的代码:vectorizer = TfidfVectorizer(norm='...