最新 'corpus' 问题

标签列表

关联标签

25得票3回答

有免费的语料库可以使用吗？

有没有任何地方可以免费或少于100美元下载英语短语的树库？我需要包含大量句法分析句子（> 1000）的训练数据，格式不限。基本上，我所需的只是这些句子中被识别为词性的单词。

nlpdatasettaggingcorpus

13得票1回答

使用电影评论语料库进行NLTK/Python分类

我想进行一些类似于NLTK第6章的分类工作。这本书似乎在创建类别时跳过了一步，我不确定自己做错了什么。我有我的脚本放在这里，并附上响应。我的问题主要来自于第一部分——基于目录名称创建分类。这里的一些其他问题使用了文件名（如pos_1.txt 和neg_1.txt），但我更喜欢创建可以将文件倾倒...

pythonnlpnltksentiment-analysiscorpus

21得票4回答

如何从Project Gutenberg的文本中删除页眉/页脚？

我尝试了各种方法来剥离项目古腾堡文本中的许可证，以用作语言学习项目的语料库，但似乎没有找到无监督、可靠的方法。目前我使用的最佳启发式方法是删除前28行和最后398行，这个方法对很多文本都奏效了。如果您有自动剥离文本的建议（每个文本非常相似，但在每种情况下存在轻微差异和几种不同的模板），以及如何...

nlptext-processingheuristicscorpusstripping

9得票4回答

以相同的方式处理由空格分隔的单词

我正在尝试找到同时出现在多个文档中的单词。让我们举个例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 如上图所示，这两个文档中都出现了“milkyway”一词，但在第二篇文档中，“milky...

rtext-miningtmcorpus

17得票6回答

R tm包 vcorpus: 将语料库转换为数据框时出错

我正在使用tm包来清理一些数据，使用以下代码：mycorpus <- Corpus(VectorSource(x)) mycorpus <- tm_map(mycorpus, removePunctuation) 我之后想将语料库转换回数据框以便导出文本文件，其中包含原始数据框的格...

rtmcorpus

90得票4回答

使用NLTK创建新的语料库

我觉得通常对于我标题的答案是去阅读文档，但我已经翻遍了NLTK书籍，但没有找到答案。我有点新手，我有一堆.txt文件，我想能够使用NLTK为语料库提供的语料库函数nltk_data。我尝试过PlaintextCorpusReader，但我只能做到这一步：>>>import...

pythonnlpnltkcorpus

9得票2回答

R tm removeWords函数无法移除单词

我正在尝试从我建立的语料库中删除一些单词，但似乎没有起作用。我首先遍历整个语料库，并创建一个数据框，按照频率顺序列出我的单词。我使用此列表来识别我不感兴趣的单词，然后尝试创建一个新列表，其中包含已删除的单词。然而，这些单词仍然存在于我的数据集中。我想知道我做错了什么以及为什么这些单词没有被删除...

rtexttext-miningtmcorpus

12得票1回答

具有音节重音信息的英语单词语料库/数据集？

我知道这可能很难实现，但是有没有人知道一个包含音节重音信息的英语单词数据集？像下面这样简单的内容就很好：AARD vark A ble a BOUT ac COUNT AC id ad DIC tion ad VERT ise ment ...

datasetnlpcorpus

15得票2回答

nltk模块中的类似方法在不同的机器上产生不同的结果，为什么？

我曾经教过一些Python文本挖掘的入门课程，学生们使用提供的练习文本尝试了类似的方法。但是有些学生得到的text1.similar()结果与其他学生不同。所有版本等都是相同的。有人知道为什么会出现这些差异吗？谢谢。在命令行中使用的代码。python >>> im...

pythonnlpnltksimilaritycorpus

8得票4回答

在R中从多个HTML文件创建语料库

我想创建一个语料库用于收集下载的HTML文件，并在未来的文本挖掘中使用R进行读取。基本上，这是我想要做的：从多个HTML文件中创建一个语料库。我尝试使用DirSource: library(tm) a<- DirSource("C:/test") b<-Corpu...

htmlrxml-parsingtext-miningcorpus