得票数最多 'corpus' 问题 - 第2页

关联标签

15得票2回答

nltk模块中的类似方法在不同的机器上产生不同的结果，为什么？

我曾经教过一些Python文本挖掘的入门课程，学生们使用提供的练习文本尝试了类似的方法。但是有些学生得到的text1.similar()结果与其他学生不同。所有版本等都是相同的。有人知道为什么会出现这些差异吗？谢谢。在命令行中使用的代码。python >>> im...

pythonnlpnltksimilaritycorpus

13得票4回答

创建包含4M行的语料库和DTM的更有效方法

我的文件有超过4M行，我需要更高效的方法将数据转换为语料库和文档-词项矩阵，以便将其传递给贝叶斯分类器。请考虑以下代码：library(tm) GetCorpus <-function(textVector) { doc.corpus <- Corpus(VectorSou...

rdata.tablecorpusterm-document-matrixqdap

13得票1回答

使用电影评论语料库进行NLTK/Python分类

我想进行一些类似于NLTK第6章的分类工作。这本书似乎在创建类别时跳过了一步，我不确定自己做错了什么。我有我的脚本放在这里，并附上响应。我的问题主要来自于第一部分——基于目录名称创建分类。这里的一些其他问题使用了文件名（如pos_1.txt 和neg_1.txt），但我更喜欢创建可以将文件倾倒...

pythonnlpnltksentiment-analysiscorpus

12得票4回答

在文本中查找所有位置/城市/地点

如果我有一篇加泰罗尼亚语报纸文章的文本，我该如何从中找出所有城市？我已经查看了Python的nltk软件包，并下载了加泰罗尼亚语(nltk.corpus.cess_cat)的语料库。目前我的情况：我已经安装了所有必要的nltk.download()内容。以下是我当前的一个示例：te ...

pythonnltkcorpustext-analysistagged-corpus

12得票1回答

具有音节重音信息的英语单词语料库/数据集？

我知道这可能很难实现，但是有没有人知道一个包含音节重音信息的英语单词数据集？像下面这样简单的内容就很好：AARD vark A ble a BOUT ac COUNT AC id ad DIC tion ad VERT ise ment ...

datasetnlpcorpus

12得票3回答

在R中的TermDocumentMatrix出现错误

我一直在尝试使用R中的{tm}包创建一个TermDocumentMatrix，并通过许多在线示例进行学习。创建和清理语料库相对简单，但是每次尝试创建矩阵时我都会遇到错误。错误信息如下： Error in UseMethod("meta", x) : no applicable...

rtext-miningtmcorpusterm-document-matrix

12得票1回答

R RKEA - 训练实例中的类标签不足（需要：1，提供：0）！

我正在尝试在R Studio中使用RKEA。这是我的当前代码：#Imports packages library(RKEA) library(tm) #Creates a corpus of training sentences data <- c("This is a senten...

rkeywordextracttmcorpus

11得票8回答

如何在R的tm包中显示语料库文本？

我对R和tm包完全是新手，所以请原谅我的愚蠢问题 ;-) 如何在R tm包中显示纯文本语料库的文本？我已经在语料库中加载了323个纯文本文件： src <- DirSource("Korpora/technologie") corpus <- Corpus(src) 但是当我使...

rtmcorpus

11得票2回答

NLTK的单词语料库中没有包含“okay”这个词吗？

NLTK词库中没有"okay"、"ok"或"Okay"这个短语？> from nltk.corpus import words > words.words().__contains__("check") > True > words.words().__contain...

pythondictionarynltkcorpus

10得票3回答

如何使用NLTK打印Wordnet的全部内容？

NLTK提供了在Brown（或Gutenberg）语料库中打印所有单词的函数。但是等效的函数似乎在Wordnet上无法工作。是否有一种通过NLTK完成此操作的方法？如果没有，该如何实现？这个可以运行：from nltk.corpus import brown as b print b.wo...

pythonnlpnltkwordnetcorpus