24得票3回答
在Python中进行文本聚类

我需要对一些文本文档进行聚类,并且一直在研究各种选项。看起来LingPipe可以直接对纯文本进行聚类,无需事先转换(例如到向量空间等),但这是我见过唯一明确声称可在字符串上工作的工具。 是否有任何Python工具可以直接对文本进行聚类?如果没有,最好的处理方式是什么?

7得票1回答
短语无监督语义聚类

我有大约一千个潜在的调查项,作为字符串向量,我想将其减少到几百个。通常在谈论数据降维时,我们都有实际的数据。我向参与者提供项目,并使用因子分析、PCA或其他降维方法。但在我的情况下,我没有任何数据,只有这些项目(即文本字符串)。我想通过消除意思相似的项目来减少这个集合。如果实际应用于参与者,它...

9得票2回答
Scikit-learn,KMeans:如何使用max_iter

我想了解类sklearn.cluster.KMeans中参数max_iter的含义。 根据文档: max_iter : int, default: 300 Maximum number of iterations of the k-means algorithm for a single ...

15得票2回答
用于对新闻文章进行分组的增量式聚类算法?

我正在研究如何将文章聚类成“新闻故事”,就像Google News一样。 在这个主题之前,我看到了以前的问题,通常建议从文章中提取单词向量,如果它们在特定部分(例如标题)中,将一些单词赋予更高的权重,然后使用像k-means算法这样的方法来对文章进行聚类。 但这引出了几个问题: 对于k...

13得票3回答
在R中处理带有NA值的聚类

我很惊讶地发现来自library(cluster)的clara函数允许NAs。但是函数文档没有说明如何处理这些值。所以我的问题是:clara如何处理NAs?这是否可以用于kmeans(不允许NAs)?[更新] 所以我在clara函数中找到了代码行:inax <- is.na(x) val...

7得票1回答
K均值寻找拐点时,应该选择拐点图形为平滑曲线的位置。

我正在尝试使用以下代码绘制k均值算法的弯曲点: load CSDmat %mydata for k = 2:20 opts = statset('MaxIter', 500, 'Display', 'off'); [IDX1,C1,sumd1,D1] = kmeans(CSD...

10得票5回答
大规模集群库,可能带有Python绑定。

我一直在尝试对一个包含50000个7维度测量向量的大型数据集进行聚类,并尝试生成30至300个簇,以便进行进一步处理。但我试过以下聚类实现均未成功:Pycluster.kcluster(在我的数据集上仅提供1-2个非空簇),scipy.cluster.hierarchy.fclusterdat...

9得票1回答
聚类与Matlab

我正在尝试对来自KDD 1999杯数据集的一些数据进行聚类。文件的输出如下所示: 0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0...

31得票14回答
如何找到一组数据点的中心?

假设我过去一年每天标记了一架直升机的位置,并得到了以下地图: 任何人都可以从中看出这架直升机来自芝加哥。 那么,我该如何在代码中获得同样的结果? 我需要像这样的内容:$geoCodeArray = array([GET=http://pastebin.com/grVsbgL9]); ...

10得票4回答
K-means 如何应用于非常大的矩阵?

我需要对一个巨大的矩阵(约30万x10万个值,超过100G)执行k-means聚类。我想知道是否可以使用R软件或weka来执行此操作。 我的计算机是具有8GB RAM和数百GB可用空间的多处理器。 我有足够的计算空间,但是使用R加载这样的矩阵似乎是一个问题(我不认为使用bigmemory包...