得票数最多 'corpus' 问题 - 第3页

关联标签

10得票4回答

在R中无法将语料库转换为数据框

我已经查看了这里发布的其他类似问题（例如这个），但问题仍然存在。我有一份文字数据的数据框，需要对其进行词干提取。因此，我将其转换为一个语料库，进行词干提取，然后从词干中补全单词，最后尝试获取文本数据框作为输出。 myCorpus <- Corpus(VectorSource(tex...

rtext-miningtmcorpus

10得票1回答

我该如何在Python/NLTK中使用完整的Penn Treebank数据集？

我正在学习如何在Python中使用NLTK软件包。特别是，我需要在NLTK中使用Penn Tree Bank数据集。据我所知，如果我调用nltk.download('treebank')，我可以获得数据集的5%。然而，我有一个完整的tar.gz文件数据集，我想使用它。在这里中说到：如果您可...

pythonnlpnltkcorpuspenn-treebank

10得票1回答

在R中加速大型数据框的处理

背景我最近一直在尝试实现刚刚提出的算法，其介绍在这篇论文中。给定大量文本（语料库），该算法应返回语料库的特征n-gram（即n个单词序列）。用户可以决定适当的n，目前我正在尝试使用原始论文中的n = 2-6。换句话说，我想使用该算法提取表征语料库的2到6个单词的组合。我已经能够实现根据...

rdataframecorpus

10得票2回答

从CSV文件中挖掘文本（每个文档一行）的R文本挖掘技术

我正在尝试使用R中的tm包，并且有一个包含客户反馈的CSV文件，每行都是不同的反馈实例。我想将所有这些反馈内容导入语料库，但我希望每行都是语料库中的不同文档，以便我可以在DocTerms矩阵中比较反馈。我的数据集中有超过10,000行。最初，我执行了以下操作： fdbk_corpus &...

rtext-miningdocumentscorpustm

10得票2回答

保持R语言语料库的文档ID

我已经在stackoverflow和网络上搜索过，只能找到部分解决方案或因TM或qdap的更改而无法正常工作的解决方案。以下是问题：我有一个数据框：ID和Text（简单的文档id/name和一些text）我有两个问题： Part 1:如何创建tdm或dtm并保持文档名称/ id？在...

rtexttext-miningtmcorpus

9得票4回答

以相同的方式处理由空格分隔的单词

我正在尝试找到同时出现在多个文档中的单词。让我们举个例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 如上图所示，这两个文档中都出现了“milkyway”一词，但在第二篇文档中，“milky...

rtext-miningtmcorpus

9得票2回答

R tm removeWords函数无法移除单词

我正在尝试从我建立的语料库中删除一些单词，但似乎没有起作用。我首先遍历整个语料库，并创建一个数据框，按照频率顺序列出我的单词。我使用此列表来识别我不感兴趣的单词，然后尝试创建一个新列表，其中包含已删除的单词。然而，这些单词仍然存在于我的数据集中。我想知道我做错了什么以及为什么这些单词没有被删除...

rtexttext-miningtmcorpus

9得票3回答

自由标注语料库用于命名实体识别

我正在寻找一个免费的标注语料库，用于训练命名实体识别系统。我发现大部分语料库（如纽约时报）都很昂贵且不开放。有人能提供帮助吗？

nltkcorpusnamed-entity-recognitiontagged-corpus

9得票2回答

NLTK - 如何从Python中查找已安装的语料库？

我正在尝试加载使用NLTK安装程序安装的一些语料库，但是我遇到了一个错误： >>> from nltk.corpus import machado Traceback (most recent call last): File "<stdin&...

pythonnlpnltkcorpus

9得票1回答

使用NLTK导入外部treebank风格的BLLIP语料库

我已经下载了BLLIP语料库并希望将其导入到NLTK。我找到的一种方法是在问题的答案中描述的，链接为如何在Python中使用NLTK读取解析句子的语料库？。在该答案中，他们正在为一个数据文件执行此操作。我想为它们的集合执行此操作。 BLLIP语料库包含几百万个文件，每个文件包含一对解析...

pythonparsingnlpnltkcorpus