我需要对一些文本文档进行聚类,并且一直在研究各种选项。看起来LingPipe可以直接对纯文本进行聚类,无需事先转换(例如到向量空间等),但这是我见过唯一明确声称可在字符串上工作的工具。 是否有任何Python工具可以直接对文本进行聚类?如果没有,最好的处理方式是什么?
我有大约一千个潜在的调查项,作为字符串向量,我想将其减少到几百个。通常在谈论数据降维时,我们都有实际的数据。我向参与者提供项目,并使用因子分析、PCA或其他降维方法。但在我的情况下,我没有任何数据,只有这些项目(即文本字符串)。我想通过消除意思相似的项目来减少这个集合。如果实际应用于参与者,它...
我想了解类sklearn.cluster.KMeans中参数max_iter的含义。 根据文档: max_iter : int, default: 300 Maximum number of iterations of the k-means algorithm for a single ...
我正在研究如何将文章聚类成“新闻故事”,就像Google News一样。 在这个主题之前,我看到了以前的问题,通常建议从文章中提取单词向量,如果它们在特定部分(例如标题)中,将一些单词赋予更高的权重,然后使用像k-means算法这样的方法来对文章进行聚类。 但这引出了几个问题: 对于k...
我很惊讶地发现来自library(cluster)的clara函数允许NAs。但是函数文档没有说明如何处理这些值。所以我的问题是:clara如何处理NAs?这是否可以用于kmeans(不允许NAs)?[更新] 所以我在clara函数中找到了代码行:inax <- is.na(x) val...
我正在尝试使用以下代码绘制k均值算法的弯曲点: load CSDmat %mydata for k = 2:20 opts = statset('MaxIter', 500, 'Display', 'off'); [IDX1,C1,sumd1,D1] = kmeans(CSD...
我一直在尝试对一个包含50000个7维度测量向量的大型数据集进行聚类,并尝试生成30至300个簇,以便进行进一步处理。但我试过以下聚类实现均未成功:Pycluster.kcluster(在我的数据集上仅提供1-2个非空簇),scipy.cluster.hierarchy.fclusterdat...
我正在尝试对来自KDD 1999杯数据集的一些数据进行聚类。文件的输出如下所示: 0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0...
假设我过去一年每天标记了一架直升机的位置,并得到了以下地图: 任何人都可以从中看出这架直升机来自芝加哥。 那么,我该如何在代码中获得同样的结果? 我需要像这样的内容:$geoCodeArray = array([GET=http://pastebin.com/grVsbgL9]); ...
我需要对一个巨大的矩阵(约30万x10万个值,超过100G)执行k-means聚类。我想知道是否可以使用R软件或weka来执行此操作。 我的计算机是具有8GB RAM和数百GB可用空间的多处理器。 我有足够的计算空间,但是使用R加载这样的矩阵似乎是一个问题(我不认为使用bigmemory包...