得票数最多 'term-document-matrix' 问题

关联标签

48得票4回答

使用tm_map(..., tolower)将文本转换为小写时出错

我尝试使用tm_map，但出现以下错误。有什么解决办法吗？ require(tm) byword<-tm_map(byword, tolower) Error in UseMethod("tm_map", x) : no applicable method for 'tm_ma...

rtmlowercaseterm-document-matrix

21得票7回答

使用R列出单词频率列表。

我一直在使用tm包来进行文本分析。我的问题是如何创建一个单词列表以及与其相关的频率。 library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt...

rtext-miningword-frequencyterm-document-matrix

17得票3回答

使用NLTK实现高效的文档-词项矩阵

我正在尝试使用NLTK和pandas创建术语文档矩阵。我编写了以下函数：def fnDTM_Corpus(xCorpus): import pandas as pd '''to create a Term Document Matrix from a NLTK Corpus''...

pythonpandasnltkterm-document-matrix

16得票3回答

我该如何告诉Solr返回每个文档的命中搜索词？

我有一个关于Solr查询的问题。当我使用多个搜索项并且它们全部逻辑上由OR链接（例如q=content:(foo OR bar OR foobar)）来执行查询时，Solr会返回一个所有匹配这些任意项的文档列表。但Solr没有返回哪些文档被哪个或哪些词条所命中的信息。因此，在以上示例中，我想知...

solrterm-document-matrix

13得票4回答

创建包含4M行的语料库和DTM的更有效方法

我的文件有超过4M行，我需要更高效的方法将数据转换为语料库和文档-词项矩阵，以便将其传递给贝叶斯分类器。请考虑以下代码：library(tm) GetCorpus <-function(textVector) { doc.corpus <- Corpus(VectorSou...

rdata.tablecorpusterm-document-matrixqdap

12得票3回答

在R中的TermDocumentMatrix出现错误

我一直在尝试使用R中的{tm}包创建一个TermDocumentMatrix，并通过许多在线示例进行学习。创建和清理语料库相对简单，但是每次尝试创建矩阵时我都会遇到错误。错误信息如下： Error in UseMethod("meta", x) : no applicable...

rtext-miningtmcorpusterm-document-matrix

7得票1回答

R tm包创建N个最常见词的矩阵

我使用R中的tm包创建了一个termDocumentMatrix。我想要创建一个含有前50个最常出现术语的矩阵/数据框。在尝试将其转换为矩阵时，我遇到了以下错误： > ap.m <- as.matrix(mydata.dtm) Error: cannot allocate...

rtext-miningtmterm-document-matrix

7得票3回答

术语-文档矩阵有时会出现错误

我正在基于不同运动团队的推文创建词云。以下代码执行成功的概率约为10分之1： handle <- 'arsenal' txt <- searchTwitter(handle,n=1000,lang='en') t <- sapply(txt,function(x) x$ge...

rword-cloudterm-document-matrix