25得票3回答
有免费的语料库可以使用吗?

有没有任何地方可以免费或少于100美元下载英语短语的树库?我需要包含大量句法分析句子(> 1000)的训练数据,格式不限。基本上,我所需的只是这些句子中被识别为词性的单词。

13得票1回答
使用电影评论语料库进行NLTK/Python分类

我想进行一些类似于NLTK第6章的分类工作。这本书似乎在创建类别时跳过了一步,我不确定自己做错了什么。我有我的脚本放在这里,并附上响应。我的问题主要来自于第一部分——基于目录名称创建分类。这里的一些其他问题使用了文件名(如pos_1.txt 和neg_1.txt),但我更喜欢创建可以将文件倾倒...

21得票4回答
如何从Project Gutenberg的文本中删除页眉/页脚?

我尝试了各种方法来剥离项目古腾堡文本中的许可证,以用作语言学习项目的语料库,但似乎没有找到无监督、可靠的方法。目前我使用的最佳启发式方法是删除前28行和最后398行,这个方法对很多文本都奏效了。如果您有自动剥离文本的建议(每个文本非常相似,但在每种情况下存在轻微差异和几种不同的模板),以及如何...

9得票4回答
以相同的方式处理由空格分隔的单词

我正在尝试找到同时出现在多个文档中的单词。 让我们举个例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 如上图所示,这两个文档中都出现了“milkyway”一词,但在第二篇文档中,“milky...

17得票6回答
R tm包 vcorpus: 将语料库转换为数据框时出错

我正在使用tm包来清理一些数据,使用以下代码:mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) 我之后想将语料库转换回数据框以便导出文本文件,其中包含原始数据框的格...

90得票4回答
使用NLTK创建新的语料库

我觉得通常对于我标题的答案是去阅读文档,但我已经翻遍了NLTK书籍,但没有找到答案。我有点新手,我有一堆.txt文件,我想能够使用NLTK为语料库提供的语料库函数nltk_data。 我尝试过PlaintextCorpusReader,但我只能做到这一步:>>>import...

9得票2回答
R tm removeWords函数无法移除单词

我正在尝试从我建立的语料库中删除一些单词,但似乎没有起作用。我首先遍历整个语料库,并创建一个数据框,按照频率顺序列出我的单词。我使用此列表来识别我不感兴趣的单词,然后尝试创建一个新列表,其中包含已删除的单词。然而,这些单词仍然存在于我的数据集中。我想知道我做错了什么以及为什么这些单词没有被删除...

12得票1回答
具有音节重音信息的英语单词语料库/数据集?

我知道这可能很难实现,但是有没有人知道一个包含音节重音信息的英语单词数据集?像下面这样简单的内容就很好:AARD vark A ble a BOUT ac COUNT AC id ad DIC tion ad VERT ise ment ...

15得票2回答
nltk模块中的类似方法在不同的机器上产生不同的结果,为什么?

我曾经教过一些Python文本挖掘的入门课程,学生们使用提供的练习文本尝试了类似的方法。但是有些学生得到的text1.similar()结果与其他学生不同。 所有版本等都是相同的。 有人知道为什么会出现这些差异吗?谢谢。 在命令行中使用的代码。python >>> im...

8得票4回答
在R中从多个HTML文件创建语料库

我想创建一个语料库用于收集下载的HTML文件,并在未来的文本挖掘中使用R进行读取。 基本上,这是我想要做的: 从多个HTML文件中创建一个语料库。 我尝试使用DirSource: library(tm) a<- DirSource("C:/test") b<-Corpu...