11得票2回答
如何使用k-means(Flann with python)对文档进行聚类?

我希望基于相似性对文档进行聚类。 我已经尝试了 ssdeep(相似性哈希),速度非常快,但是有人告诉我 k-means 更快,flann 是所有实现中最快,而且更准确,所以我正在尝试使用具有 python 绑定的 flann,但我找不到任何关于如何在文本上执行它的示例(它只支持数字数组)。 ...

10得票4回答
在R中无法将语料库转换为数据框

我已经查看了这里发布的其他类似问题(例如这个),但问题仍然存在。 我有一份文字数据的数据框,需要对其进行词干提取。因此,我将其转换为一个语料库,进行词干提取,然后从词干中补全单词,最后尝试获取文本数据框作为输出。 myCorpus <- Corpus(VectorSource(tex...

10得票2回答
Android的机器学习库

我正在尝试为我的安卓应用程序构建一个小型文本挖掘工具。 我正在寻找一种机器学习库,可以让我进行聚类、分类等操作。 有没有适用于安卓的机器学习库?我看到了tensorflow,但我需要更多常见的机器学习功能。

10得票2回答
从CSV文件中挖掘文本(每个文档一行)的R文本挖掘技术

我正在尝试使用R中的tm包,并且有一个包含客户反馈的CSV文件,每行都是不同的反馈实例。我想将所有这些反馈内容导入语料库,但我希望每行都是语料库中的不同文档,以便我可以在DocTerms矩阵中比较反馈。我的数据集中有超过10,000行。 最初,我执行了以下操作: fdbk_corpus &...

10得票3回答
从文本中提取位置的方法?

有哪些推荐的从自由文本中提取位置信息的方法? 我可以考虑使用正则表达式规则,例如“在地点的单词……”。但是除此之外还有更好的方法吗? 另外,我可以考虑使用查找哈希表来获取国家和城市的名称,然后将从文本中提取的每个标记与哈希表的内容进行比较。 是否有人知道更好的方法? 编辑:我正在尝试从...

10得票4回答
Python还是Java用于文本处理(文本挖掘,信息检索,自然语言处理)?

我很快将开始一项新项目,需要进行大量的文本处理任务,如搜索、分类/归类、聚类等。 需要处理的文件数量将非常庞大,可能有数百万个文件。在完成初始处理后,还必须能够每天更新多个新的文件。 我能否使用Python来完成这项任务,或者Python速度太慢了?最好使用Java吗? 如果可能的话,...

10得票2回答
保持R语言语料库的文档ID

我已经在stackoverflow和网络上搜索过,只能找到部分解决方案或因TM或qdap的更改而无法正常工作的解决方案。以下是问题: 我有一个数据框:ID和Text(简单的文档id/name和一些text) 我有两个问题: Part 1:如何创建tdm或dtm并保持文档名称/ id? 在...

10得票2回答
基于大规模在线对话文本的情感分析

标题已经说明了一切; 我有一个装满在线对话文本的SQL数据库。我已经用Python完成了这个项目的大部分工作,因此我想使用Python的NLTK库来完成这个项目(除非有强烈的理由不这样做)。 数据按线程、用户名和帖子组织。每个线程更多地专注于讨论我感兴趣的类别的一个“产品”。最终,当这个项目...

9得票2回答
如何使用tf-idf对新文档进行分类?

如果我使用来自sklearn的TfidfVectorizer生成特征向量如下: features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments) 那么我该如何生成用于分类新文档的特征向量...

9得票2回答
OpenNLP中训练时的'cut-off'和'iteration'是什么意思?

cut-off 和 iteration 在 OpenNLP 中的训练中有什么含义?或者说在自然语言处理中都是怎样的概念。我只需要这些术语的通俗易懂的解释。就我所知,iteration 指的是算法重复迭代的次数,而 cut-off 是一个阈值,如果文本某个特定类别的值高于这个阈值,那么它将被映射...