得票数最多 'text-mining' 问题 - 第3页

关联标签

21得票2回答

我有将近一千份PDF期刊文章存放在一个文件夹中。我需要对整个文件夹中所有文章的摘要进行文本挖掘。目前我正在执行以下操作：dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf to text exe <- "C:...

21得票3回答

我正在尝试对Twitter流进行聚类。我希望将每个推文放入一个关于相同话题的簇中。我尝试使用tf / idf和余弦相似度的在线聚类算法来聚类流，但我发现结果很糟糕。使用tf / idf的主要缺点是它聚类关键字相似的文档，因此仅适用于识别几乎相同的文档。例如，请考虑以下句子： 1- 网站S...

19得票4回答

假设你面临以下问题：你有一个名为“articles”的表格，其中包含约20,000个文本你想使用聚类算法将相关的文章连接起来，以便将相关文章一起展示该算法应该进行平面聚类（不是分层聚类）相关文章应被插入到名为“related”的表格中聚类算法应根据文本决定两个或多个文章是否相关 ...

19得票4回答

我想在R中为文本分配一些不同的可读性评分，比如Flesh Kincaid。有人知道使用R将单词分割成音节的方法吗？我不一定需要音节本身，只需要计数。例如：x <- c('dog', 'cat', 'pony', 'cracker', 'shoe', 'Popsicle') 会产生...

19得票3回答

如何处理/去除表情符号以便对推文进行情感分析排序？出现以下错误：在sort.list(y)中出错：无效输入谢谢这就是推特上的表情符号进入r后的样子：\xed��\xed�\u0083\xed��\xed�� \xed��\xed�\u008d\xed��\xed�\u0089

17得票3回答

所以我有一个非常大的术语-文档矩阵：> class(ph.DTM) [1] "TermDocumentMatrix" "simple_triplet_matrix" > ph.DTM A term-document matrix (109996 terms, 262811 ...

17得票6回答

我在R中使用tm软件包拥有一个语料库。我正在使用removeWords函数来去除停用词。我在R中使用tm包创建了一个语料库，现在我想使用removeWords函数去除停用词。tm_map(abs, removeWords, stopwords("english")) 有没有办法将我自己...

17得票5回答

在自然语言处理中，停用词去除是一种典型的预处理步骤。通常情况下，我们会根据认为应该被排除的停用词来进行这个步骤。但是在我看来，我们应该将停用词的概念泛化。对于来自不同领域的语料库，停用词可能会有所不同。我想知道是否可以通过其统计特征等数学方式定义停用词。然后，是否可以自动从特定领域的语料库...

17得票1回答

我刚开始学习OpenNLP。我需要创建一个简单的训练模型来识别名称实体。在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind，我看到了这个简单的训练文本：<S...

16得票2回答

尝试在此处复制示例； http://onertipaday.blogspot.com/2011/07/word-cloud-in-r.html 需要帮助解决如何增加词云的绘图区域。在 png("wordcloud_packages.png", width=1280,height=800) ...