48得票4回答
使用tm_map(..., tolower)将文本转换为小写时出错

我尝试使用tm_map,但出现以下错误。有什么解决办法吗? require(tm) byword<-tm_map(byword, tolower) Error in UseMethod("tm_map", x) : no applicable method for 'tm_ma...

21得票7回答
使用R列出单词频率列表。

我一直在使用tm包来进行文本分析。我的问题是如何创建一个单词列表以及与其相关的频率。 library(tm) library(RWeka) txt <- read.csv("HW.csv",header=T) df <- do.call("rbind", lapply(txt...

17得票3回答
使用NLTK实现高效的文档-词项矩阵

我正在尝试使用NLTK和pandas创建术语文档矩阵。我编写了以下函数:def fnDTM_Corpus(xCorpus): import pandas as pd '''to create a Term Document Matrix from a NLTK Corpus''...

16得票3回答
我该如何告诉Solr返回每个文档的命中搜索词?

我有一个关于Solr查询的问题。当我使用多个搜索项并且它们全部逻辑上由OR链接(例如q=content:(foo OR bar OR foobar))来执行查询时,Solr会返回一个所有匹配这些任意项的文档列表。但Solr没有返回哪些文档被哪个或哪些词条所命中的信息。因此,在以上示例中,我想知...

13得票4回答
创建包含4M行的语料库和DTM的更有效方法

我的文件有超过4M行,我需要更高效的方法将数据转换为语料库和文档-词项矩阵,以便将其传递给贝叶斯分类器。 请考虑以下代码:library(tm) GetCorpus <-function(textVector) { doc.corpus <- Corpus(VectorSou...

12得票3回答
在R中的TermDocumentMatrix出现错误

我一直在尝试使用R中的{tm}包创建一个TermDocumentMatrix,并通过许多在线示例进行学习。创建和清理语料库相对简单,但是每次尝试创建矩阵时我都会遇到错误。错误信息如下: Error in UseMethod("meta", x) : no applicable...

7得票1回答
R tm包创建N个最常见词的矩阵

我使用R中的tm包创建了一个termDocumentMatrix。 我想要创建一个含有前50个最常出现术语的矩阵/数据框。 在尝试将其转换为矩阵时,我遇到了以下错误: > ap.m <- as.matrix(mydata.dtm) Error: cannot allocate...

7得票3回答
术语-文档矩阵有时会出现错误

我正在基于不同运动团队的推文创建词云。以下代码执行成功的概率约为10分之1: handle <- 'arsenal' txt <- searchTwitter(handle,n=1000,lang='en') t <- sapply(txt,function(x) x$ge...