得票数最多 'text-mining' 问题 - 第4页

关联标签

16得票6回答

R文本文件和文本挖掘...如何加载数据

我正在使用R包tm进行文本挖掘，想处理一份文件并将其视为词袋。我不理解如何加载文本文件以及创建必要的对象来开始使用功能，比如...stemDocument(x, language = map_IETF(Language(x))) 假设这是我的文档：“this is a test for R l...

rloadtext-miningtm

16得票2回答

在使用R和Rweka时，在term-document矩阵中使用bigrams而不是单词。

我已经找到了一种使用二元组而不是单个标记在术语-文档矩阵中的方法。该解决方案已经在stackoverflow上提出，链接为：在R中查找多个术语的findAssocs。这个想法大致如下： library(tm) library(RWeka) data(crude) #Tokenizer ...

rtexttext-mining

16得票5回答

使用Python从PubMed获取数据

我有一份PubMed文章列表，其中包括PubMed ID。我想创建一个Python脚本或使用Python，接受PubMed ID号作为输入，并从PubMed网站获取摘要。目前，我已经了解了NCBI Eutilities和Python的importurl库，但不知道如何编写模板。非常感谢...

pythontext-mining

16得票2回答

在R中进行非常快速的词语ngram向量化

编辑：新的text2vec软件包非常出色，很好地解决了这个问题（以及许多其他问题）。 text2vec在CRAN上的页面 text2vec在github上的页面演示ngram标记化的vignette 我有一个相当大的R文本数据集，我已将其导入为字符向量：#Takes about 15 s...

rvectorizationtext-miningn-gramtext2vec

15得票3回答

Python中的字符串距离矩阵

如何在Python中计算字符串的Levenshtein距离矩阵？ str1 str2 str3 str4 ... strn str1 0.8 0.4 0.6 0.1 ... 0....

pythonstringmachine-learningtext-mininglevenshtein-distance

15得票7回答

文本分类/归类算法

我的目标是[半]自动地将文本分配到不同的类别中。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人工定义的分类中学习，然后自动分类新的文本。是否有人能建议这样的算法，并且可能有实现它的.NET库？

algorithmtext-miningdocument-classification

15得票1回答

使用R中的tm包制作多个语料库中前N个高频词的数据框。

我用R语言的tm包创建了几个TermDocumentMatrix。我想找到每组文档中出现频率最高的10个词，以便最终得到如下输出表格：corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th m...

rtext-miningcorpustm

15得票2回答

如何从我的文本中删除动词、介词、连词等？

基本上，在我的文本中，我只想保留名词并删除其他词性。我认为没有任何自动化的方法可以做到这一点。如果有，请建议。如果没有自动化的方式，我也可以手动完成，但这需要我获得所有可能的动词、介词、连词或形容词等列表。请问有哪些可能的来源可以提供这些特定的列表？

pythonrtext-mining

14得票1回答

如何在Pandas数据框中找到一列的ngram频率？

以下是我拥有的输入pandas数据框。我想找到unigrams和bigrams的频率。下面显示了我期望结果的示例如何使用nltk或scikit learn进行操作？我编写了以下代码，它以字符串作为输入。如何将其扩展到系列/数据框？from nltk.collocations i...

pandasnlpscikit-learnnltktext-mining

14得票1回答

使用Gensim获取三元组时出现的问题

我希望从我提到的示例句子中获取二元组和三元组。我的代码对于二元组很好用。然而，它无法捕获数据中的三元组（例如，人类计算机交互，在我的句子中被提及了5次）。下面是使用Gensim中的Phrases的代码，方法1如下所述。 from gensim.models import Phrase...

pythondata-miningtext-miningword2vecgensim