得票数最多 'k-means' 问题 - 第3页

关联标签

28得票5回答

在执行 do_one(nmeth) 时发生错误：外部函数调用中的 NA/NaN/Inf（参数1）。

我有一个数据表（“norm”），其中包含以下形式的数字 - 至少在我所看到的范围内 - 归一化值：当我执行时k <- kmeans(norm,center=3) 我收到了以下错误：Error in do_one(nmeth) : NA/NaN/Inf in foreign fun...

rmachine-learningcluster-analysisdata-miningk-means

26得票1回答

使用Python中的scikit-learn kmeans对文本文档进行聚类

我需要实现scikit-learn的kMeans来对文本文档进行聚类。示例代码本身可以正常工作，但需要使用一些20newsgroups数据作为输入。我想要使用相同的代码来对如下所示的文档列表进行聚类: documents = ["Human machine interface for lab...

pythonpython-2.7scikit-learncluster-analysisk-means

26得票2回答

将n个点分成k个大小相等的簇。

可能重复： K-means算法变种，每个簇的大小相等编辑：就像casperOne指出的那样，这个问题是一个重复的问题。无论如何，这里有一个更一般化的问题，涵盖了这个问题：https://stats.stackexchange.com/questions/8744/clustering-p...

algorithmcluster-analysisk-means

26得票2回答

通过间隔统计和预测强度估计聚类数量

我正在尝试将gap统计和预测强度的R实现http://edchedch.wordpress.com/2011/03/19/counting-clusters/翻译为Python脚本，以估计3个群集的鸢尾花数据的数量。但是，每次运行时得到的结果都不同，估计出的群集数量与实际的3个相差很大。图表显...

pythonrcluster-analysisk-means

26得票2回答

k-means的时间复杂度是什么？

我正在阅读 k-means聚类的维基百科页面。根据算法，我认为复杂度为O(n*k*i)（其中n = 元素总数，k = 群集迭代次数）。那么，有人能解释一下维基百科中这个陈述的含义以及它是如何成为NP难题的吗？如果 k 和 d（维度）固定，则该问题可以在时间 O(ndk+1 lo...

algorithmtime-complexityk-means

26得票6回答

快速（< n^2）聚类算法

我有一百万个五维点需要分成 k 个簇，其中 k <<100 万。在每个簇中，任何两个点都不应该离得太远（例如，它们可以是具有指定半径的边界球）。这意味着可能必须有许多大小为1的簇。但是！我需要运行时间明显低于n ^ 2。 n log n左右就可以了。我做这个聚类的原因是为了避免计算所有n个...

algorithmmachine-learningcluster-analysisdata-miningk-means

25得票2回答

K-Means: Lloyd,Forgy,MacQueen,Hartigan-Wong

我正在使用R中的K-Means算法，想要了解在stats包中"kmeans"函数可用的4个算法Lloyd，Forgy，MacQueen和Hartigan-Wong之间的区别。然而，我没有得到一个充分的答案。我只找到了一些罕见的信息：（访问http://en.wikibooks.org/...

ralgorithmk-means

24得票3回答

kmeans散点图：对每个聚类绘制不同颜色的点。

我正在尝试绘制kmeans输出的散点图，该图将同一主题的句子聚类在一起。我面临的问题是绘制属于每个聚类的点的特定颜色。sentence_list=["Hi how are you", "Good morning" ...] #i have 10 setences km = KMeans(n_c...

pythonnumpymatplotlibscipyk-means

24得票3回答

使用Python实现基于余弦相似度的K-means算法

我正在尝试在Python中实现Kmeans算法，该算法将使用余弦距离作为距离度量，而不是欧几里德距离。我知道使用不同的距离函数可能会导致灾难性后果，因此应该小心处理。使用余弦距离作为度量强制我更改平均函数（根据余弦距离的平均值必须是规范化向量的逐元素平均值）。我看到了这个手动覆盖skle...

pythonscikit-learnk-meanscosine-similaritysklearn-pandas

24得票5回答

Python scikit-learn 中每次运行后聚类结果的变化

我有一堆句子，想使用scikit-learn的谱聚类对它们进行聚类。我已经运行了代码并得到了结果，没有问题。但是，每次运行时都会得到不同的结果。我知道这是初始化的问题，但我不知道该如何解决。这是我的一部分运行在句子上的代码：vectorizer = TfidfVectorizer(norm='...

pythonscikit-learncluster-analysisk-meansspectral