10得票4回答
在R中无法将语料库转换为数据框

我已经查看了这里发布的其他类似问题(例如这个),但问题仍然存在。 我有一份文字数据的数据框,需要对其进行词干提取。因此,我将其转换为一个语料库,进行词干提取,然后从词干中补全单词,最后尝试获取文本数据框作为输出。 myCorpus <- Corpus(VectorSource(tex...

10得票1回答
我该如何在Python/NLTK中使用完整的Penn Treebank数据集?

我正在学习如何在Python中使用NLTK软件包。特别是,我需要在NLTK中使用Penn Tree Bank数据集。据我所知,如果我调用nltk.download('treebank'),我可以获得数据集的5%。然而,我有一个完整的tar.gz文件数据集,我想使用它。在这里中说到: 如果您可...

10得票1回答
在R中加速大型数据框的处理

背景 我最近一直在尝试实现刚刚提出的算法,其介绍在这篇论文中。给定大量文本(语料库),该算法应返回语料库的特征n-gram(即n个单词序列)。用户可以决定适当的n,目前我正在尝试使用原始论文中的n = 2-6。换句话说,我想使用该算法提取表征语料库的2到6个单词的组合。 我已经能够实现根据...

10得票2回答
从CSV文件中挖掘文本(每个文档一行)的R文本挖掘技术

我正在尝试使用R中的tm包,并且有一个包含客户反馈的CSV文件,每行都是不同的反馈实例。我想将所有这些反馈内容导入语料库,但我希望每行都是语料库中的不同文档,以便我可以在DocTerms矩阵中比较反馈。我的数据集中有超过10,000行。 最初,我执行了以下操作: fdbk_corpus &...

10得票2回答
保持R语言语料库的文档ID

我已经在stackoverflow和网络上搜索过,只能找到部分解决方案或因TM或qdap的更改而无法正常工作的解决方案。以下是问题: 我有一个数据框:ID和Text(简单的文档id/name和一些text) 我有两个问题: Part 1:如何创建tdm或dtm并保持文档名称/ id? 在...

9得票4回答
以相同的方式处理由空格分隔的单词

我正在尝试找到同时出现在多个文档中的单词。 让我们举个例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 如上图所示,这两个文档中都出现了“milkyway”一词,但在第二篇文档中,“milky...

9得票2回答
R tm removeWords函数无法移除单词

我正在尝试从我建立的语料库中删除一些单词,但似乎没有起作用。我首先遍历整个语料库,并创建一个数据框,按照频率顺序列出我的单词。我使用此列表来识别我不感兴趣的单词,然后尝试创建一个新列表,其中包含已删除的单词。然而,这些单词仍然存在于我的数据集中。我想知道我做错了什么以及为什么这些单词没有被删除...

9得票3回答
自由标注语料库用于命名实体识别

我正在寻找一个免费的标注语料库,用于训练命名实体识别系统。我发现大部分语料库(如纽约时报)都很昂贵且不开放。有人能提供帮助吗?

9得票2回答
NLTK - 如何从Python中查找已安装的语料库?

我正在尝试加载使用NLTK安装程序安装的一些语料库,但是我遇到了一个错误: >>> from nltk.corpus import machado Traceback (most recent call last): File "<stdin&...

9得票1回答
使用NLTK导入外部treebank风格的BLLIP语料库

我已经下载了BLLIP语料库并希望将其导入到NLTK。 我找到的一种方法是在问题的答案中描述的,链接为如何在Python中使用NLTK读取解析句子的语料库?。 在该答案中,他们正在为一个数据文件执行此操作。 我想为它们的集合执行此操作。 BLLIP语料库包含几百万个文件,每个文件包含一对解析...