21得票2回答
使用R语言将PDF文件转换为文本文件,以进行文本挖掘。

我有将近一千份PDF期刊文章存放在一个文件夹中。我需要对整个文件夹中所有文章的摘要进行文本挖掘。目前我正在执行以下操作:dest <- "~/A1.pdf" # set path to pdftotxt.exe and convert pdf to text exe <- "C:...

21得票3回答
比tf/idf和余弦相似度更好的文本文档聚类方法?

我正在尝试对Twitter流进行聚类。我希望将每个推文放入一个关于相同话题的簇中。我尝试使用tf / idf和余弦相似度的在线聚类算法来聚类流,但我发现结果很糟糕。 使用tf / idf的主要缺点是它聚类关键字相似的文档,因此仅适用于识别几乎相同的文档。例如,请考虑以下句子: 1- 网站S...

19得票4回答
最佳聚类算法是什么?(简单解释)

假设你面临以下问题: 你有一个名为“articles”的表格,其中包含约20,000个文本 你想使用聚类算法将相关的文章连接起来,以便将相关文章一起展示 该算法应该进行平面聚类(不是分层聚类) 相关文章应被插入到名为“related”的表格中 聚类算法应根据文本决定两个或多个文章是否相关 ...

19得票4回答
计算音节数

我想在R中为文本分配一些不同的可读性评分,比如Flesh Kincaid。 有人知道使用R将单词分割成音节的方法吗?我不一定需要音节本身,只需要计数。 例如:x <- c('dog', 'cat', 'pony', 'cracker', 'shoe', 'Popsicle') 会产生...

19得票3回答
Twitter情感分析中的表情符号在R中的应用

如何处理/去除表情符号以便对推文进行情感分析排序?出现以下错误:在sort.list(y)中出错:无效输入谢谢这就是推特上的表情符号进入r后的样子:\xed��\xed�\u0083\xed��\xed�� \xed��\xed�\u008d\xed��\xed�\u0089

17得票3回答
大型词项-文档矩阵/简单三元组矩阵的行求和??{tm包}

所以我有一个非常大的术语-文档矩阵:> class(ph.DTM) [1] "TermDocumentMatrix" "simple_triplet_matrix" > ph.DTM A term-document matrix (109996 terms, 262811 ...

17得票6回答
在R tm中添加自定义停用词

我在R中使用tm软件包拥有一个语料库。 我正在使用removeWords函数来去除停用词。 我在R中使用tm包创建了一个语料库,现在我想使用removeWords函数去除停用词。tm_map(abs, removeWords, stopwords("english")) 有没有办法将我自己...

17得票5回答
可以自动找到停用词吗?

在自然语言处理中,停用词去除是一种典型的预处理步骤。通常情况下,我们会根据认为应该被排除的停用词来进行这个步骤。 但是在我看来,我们应该将停用词的概念泛化。对于来自不同领域的语料库,停用词可能会有所不同。我想知道是否可以通过其统计特征等数学方式定义停用词。然后,是否可以自动从特定领域的语料库...

17得票1回答
如何在OpenNLP中创建一个优秀的命名实体识别训练模型?

我刚开始学习OpenNLP。我需要创建一个简单的训练模型来识别名称实体。 在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind,我看到了这个简单的训练文本:<S...

16得票2回答
如何在R中增加词云图的绘图区域大小

尝试在此处复制示例; http://onertipaday.blogspot.com/2011/07/word-cloud-in-r.html 需要帮助解决如何增加词云的绘图区域。在 png("wordcloud_packages.png", width=1280,height=800) ...