最新 'cluster-analysis' 问题 - 第3页

关联标签

24得票3回答

在Python中进行文本聚类

我需要对一些文本文档进行聚类，并且一直在研究各种选项。看起来LingPipe可以直接对纯文本进行聚类，无需事先转换（例如到向量空间等），但这是我见过唯一明确声称可在字符串上工作的工具。是否有任何Python工具可以直接对文本进行聚类？如果没有，最好的处理方式是什么？

pythoncluster-analysisnlp

7得票1回答

短语无监督语义聚类

我有大约一千个潜在的调查项，作为字符串向量，我想将其减少到几百个。通常在谈论数据降维时，我们都有实际的数据。我向参与者提供项目，并使用因子分析、PCA或其他降维方法。但在我的情况下，我没有任何数据，只有这些项目（即文本字符串）。我想通过消除意思相似的项目来减少这个集合。如果实际应用于参与者，它...

rcluster-analysistext-miningunsupervised-learning

9得票2回答

Scikit-learn，KMeans：如何使用max_iter

我想了解类sklearn.cluster.KMeans中参数max_iter的含义。根据文档： max_iter : int, default: 300 Maximum number of iterations of the k-means algorithm for a single ...

pythonparametersscikit-learncluster-analysisk-means

15得票2回答

用于对新闻文章进行分组的增量式聚类算法？

我正在研究如何将文章聚类成“新闻故事”，就像Google News一样。在这个主题之前，我看到了以前的问题，通常建议从文章中提取单词向量，如果它们在特定部分（例如标题）中，将一些单词赋予更高的权重，然后使用像k-means算法这样的方法来对文章进行聚类。但这引出了几个问题：对于k...

cluster-analysis

13得票3回答

在R中处理带有NA值的聚类

我很惊讶地发现来自library(cluster)的clara函数允许NAs。但是函数文档没有说明如何处理这些值。所以我的问题是：clara如何处理NAs？这是否可以用于kmeans（不允许NAs）？[更新] 所以我在clara函数中找到了代码行：inax <- is.na(x) val...

rcluster-analysis

7得票1回答

K均值寻找拐点时，应该选择拐点图形为平滑曲线的位置。

我正在尝试使用以下代码绘制k均值算法的弯曲点： load CSDmat %mydata for k = 2:20 opts = statset('MaxIter', 500, 'Display', 'off'); [IDX1,C1,sumd1,D1] = kmeans(CSD...

matlabcluster-analysisk-meansvariance

10得票5回答

大规模集群库，可能带有Python绑定。

我一直在尝试对一个包含50000个7维度测量向量的大型数据集进行聚类，并尝试生成30至300个簇，以便进行进一步处理。但我试过以下聚类实现均未成功：Pycluster.kcluster（在我的数据集上仅提供1-2个非空簇），scipy.cluster.hierarchy.fclusterdat...

pythondata-miningcluster-analysis

9得票1回答

聚类与Matlab

我正在尝试对来自KDD 1999杯数据集的一些数据进行聚类。文件的输出如下所示： 0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0...

matlabmachine-learningcluster-analysisdata-miningfuzzy

31得票14回答

如何找到一组数据点的中心？

假设我过去一年每天标记了一架直升机的位置，并得到了以下地图：任何人都可以从中看出这架直升机来自芝加哥。那么，我该如何在代码中获得同样的结果？我需要像这样的内容：$geoCodeArray = array([GET=http://pastebin.com/grVsbgL9]); ...

algorithmgeocodingcluster-analysisdata-miningmarkerclusterer

10得票4回答

K-means 如何应用于非常大的矩阵？

我需要对一个巨大的矩阵（约30万x10万个值，超过100G）执行k-means聚类。我想知道是否可以使用R软件或weka来执行此操作。我的计算机是具有8GB RAM和数百GB可用空间的多处理器。我有足够的计算空间，但是使用R加载这样的矩阵似乎是一个问题（我不认为使用bigmemory包...

rcluster-analysiswekak-meansmahout