16得票6回答
R文本文件和文本挖掘...如何加载数据

我正在使用R包tm进行文本挖掘,想处理一份文件并将其视为词袋。我不理解如何加载文本文件以及创建必要的对象来开始使用功能,比如...stemDocument(x, language = map_IETF(Language(x))) 假设这是我的文档:“this is a test for R l...

16得票2回答
在使用R和Rweka时,在term-document矩阵中使用bigrams而不是单词。

我已经找到了一种使用二元组而不是单个标记在术语-文档矩阵中的方法。该解决方案已经在stackoverflow上提出,链接为:在R中查找多个术语的findAssocs。 这个想法大致如下: library(tm) library(RWeka) data(crude) #Tokenizer ...

16得票5回答
使用Python从PubMed获取数据

我有一份PubMed文章列表,其中包括PubMed ID。我想创建一个Python脚本或使用Python,接受PubMed ID号作为输入,并从PubMed网站获取摘要。 目前,我已经了解了NCBI Eutilities和Python的importurl库,但不知道如何编写模板。 非常感谢...

16得票2回答
在R中进行非常快速的词语ngram向量化

编辑:新的text2vec软件包非常出色,很好地解决了这个问题(以及许多其他问题)。 text2vec在CRAN上的页面 text2vec在github上的页面 演示ngram标记化的vignette 我有一个相当大的R文本数据集,我已将其导入为字符向量:#Takes about 15 s...

15得票3回答
Python中的字符串距离矩阵

如何在Python中计算字符串的Levenshtein距离矩阵? str1 str2 str3 str4 ... strn str1 0.8 0.4 0.6 0.1 ... 0....

15得票7回答
文本分类/归类算法

我的目标是[半]自动地将文本分配到不同的类别中。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人工定义的分类中学习,然后自动分类新的文本。 是否有人能建议这样的算法,并且可能有实现它的.NET库?

15得票1回答
使用R中的tm包制作多个语料库中前N个高频词的数据框。

我用R语言的tm包创建了几个TermDocumentMatrix。 我想找到每组文档中出现频率最高的10个词,以便最终得到如下输出表格:corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th m...

15得票2回答
如何从我的文本中删除动词、介词、连词等?

基本上,在我的文本中,我只想保留名词并删除其他词性。 我认为没有任何自动化的方法可以做到这一点。如果有,请建议。 如果没有自动化的方式,我也可以手动完成,但这需要我获得所有可能的动词、介词、连词或形容词等列表。请问有哪些可能的来源可以提供这些特定的列表?

14得票1回答
如何在Pandas数据框中找到一列的ngram频率?

以下是我拥有的输入pandas数据框。 我想找到unigrams和bigrams的频率。下面显示了我期望结果的示例 如何使用nltk或scikit learn进行操作? 我编写了以下代码,它以字符串作为输入。如何将其扩展到系列/数据框?from nltk.collocations i...

14得票1回答
使用Gensim获取三元组时出现的问题

我希望从我提到的示例句子中获取二元组和三元组。 我的代码对于二元组很好用。然而,它无法捕获数据中的三元组(例如,人类计算机交互,在我的句子中被提及了5次)。 下面是使用Gensim中的Phrases的代码,方法1如下所述。 from gensim.models import Phrase...