15得票2回答
nltk模块中的类似方法在不同的机器上产生不同的结果,为什么?

我曾经教过一些Python文本挖掘的入门课程,学生们使用提供的练习文本尝试了类似的方法。但是有些学生得到的text1.similar()结果与其他学生不同。 所有版本等都是相同的。 有人知道为什么会出现这些差异吗?谢谢。 在命令行中使用的代码。python >>> im...

13得票4回答
创建包含4M行的语料库和DTM的更有效方法

我的文件有超过4M行,我需要更高效的方法将数据转换为语料库和文档-词项矩阵,以便将其传递给贝叶斯分类器。 请考虑以下代码:library(tm) GetCorpus <-function(textVector) { doc.corpus <- Corpus(VectorSou...

13得票1回答
使用电影评论语料库进行NLTK/Python分类

我想进行一些类似于NLTK第6章的分类工作。这本书似乎在创建类别时跳过了一步,我不确定自己做错了什么。我有我的脚本放在这里,并附上响应。我的问题主要来自于第一部分——基于目录名称创建分类。这里的一些其他问题使用了文件名(如pos_1.txt 和neg_1.txt),但我更喜欢创建可以将文件倾倒...

12得票4回答
在文本中查找所有位置/城市/地点

如果我有一篇加泰罗尼亚语报纸文章的文本,我该如何从中找出所有城市? 我已经查看了Python的nltk软件包,并下载了加泰罗尼亚语(nltk.corpus.cess_cat)的语料库。 目前我的情况: 我已经安装了所有必要的nltk.download()内容。以下是我当前的一个示例:te ...

12得票1回答
具有音节重音信息的英语单词语料库/数据集?

我知道这可能很难实现,但是有没有人知道一个包含音节重音信息的英语单词数据集?像下面这样简单的内容就很好:AARD vark A ble a BOUT ac COUNT AC id ad DIC tion ad VERT ise ment ...

12得票3回答
在R中的TermDocumentMatrix出现错误

我一直在尝试使用R中的{tm}包创建一个TermDocumentMatrix,并通过许多在线示例进行学习。创建和清理语料库相对简单,但是每次尝试创建矩阵时我都会遇到错误。错误信息如下: Error in UseMethod("meta", x) : no applicable...

12得票1回答
R RKEA - 训练实例中的类标签不足(需要:1,提供:0)!

我正在尝试在R Studio中使用RKEA。 这是我的当前代码:#Imports packages library(RKEA) library(tm) #Creates a corpus of training sentences data <- c("This is a senten...

11得票8回答
如何在R的tm包中显示语料库文本?

我对R和tm包完全是新手,所以请原谅我的愚蠢问题 ;-) 如何在R tm包中显示纯文本语料库的文本? 我已经在语料库中加载了323个纯文本文件: src <- DirSource("Korpora/technologie") corpus <- Corpus(src) 但是当我使...

11得票2回答
NLTK的单词语料库中没有包含“okay”这个词吗?

NLTK词库中没有"okay"、"ok"或"Okay"这个短语?> from nltk.corpus import words > words.words().__contains__("check") > True > words.words().__contain...

10得票3回答
如何使用NLTK打印Wordnet的全部内容?

NLTK提供了在Brown(或Gutenberg)语料库中打印所有单词的函数。但是等效的函数似乎在Wordnet上无法工作。 是否有一种通过NLTK完成此操作的方法?如果没有,该如何实现? 这个可以运行:from nltk.corpus import brown as b print b.wo...