得票数最多 'text-mining' 问题 - 第7页

关联标签

11得票2回答

如何使用k-means（Flann with python）对文档进行聚类？

我希望基于相似性对文档进行聚类。我已经尝试了 ssdeep（相似性哈希），速度非常快，但是有人告诉我 k-means 更快，flann 是所有实现中最快，而且更准确，所以我正在尝试使用具有 python 绑定的 flann，但我找不到任何关于如何在文本上执行它的示例（它只支持数字数组）。 ...

nlpcluster-analysisdata-miningk-meanstext-mining

10得票4回答

在R中无法将语料库转换为数据框

我已经查看了这里发布的其他类似问题（例如这个），但问题仍然存在。我有一份文字数据的数据框，需要对其进行词干提取。因此，我将其转换为一个语料库，进行词干提取，然后从词干中补全单词，最后尝试获取文本数据框作为输出。 myCorpus <- Corpus(VectorSource(tex...

rtext-miningtmcorpus

10得票2回答

Android的机器学习库

我正在尝试为我的安卓应用程序构建一个小型文本挖掘工具。我正在寻找一种机器学习库，可以让我进行聚类、分类等操作。有没有适用于安卓的机器学习库？我看到了tensorflow，但我需要更多常见的机器学习功能。

androidmachine-learningnlpartificial-intelligencetext-mining

10得票2回答

从CSV文件中挖掘文本（每个文档一行）的R文本挖掘技术

我正在尝试使用R中的tm包，并且有一个包含客户反馈的CSV文件，每行都是不同的反馈实例。我想将所有这些反馈内容导入语料库，但我希望每行都是语料库中的不同文档，以便我可以在DocTerms矩阵中比较反馈。我的数据集中有超过10,000行。最初，我执行了以下操作： fdbk_corpus &...

rtext-miningdocumentscorpustm

10得票3回答

从文本中提取位置的方法？

有哪些推荐的从自由文本中提取位置信息的方法？我可以考虑使用正则表达式规则，例如“在地点的单词……”。但是除此之外还有更好的方法吗？另外，我可以考虑使用查找哈希表来获取国家和城市的名称，然后将从文本中提取的每个标记与哈希表的内容进行比较。是否有人知道更好的方法？编辑：我正在尝试从...

nlptext-mininginformation-extractionnamed-entity-recognitionnamed-entity-extraction

10得票4回答

Python还是Java用于文本处理（文本挖掘，信息检索，自然语言处理）？

我很快将开始一项新项目，需要进行大量的文本处理任务，如搜索、分类/归类、聚类等。需要处理的文件数量将非常庞大，可能有数百万个文件。在完成初始处理后，还必须能够每天更新多个新的文件。我能否使用Python来完成这项任务，或者Python速度太慢了？最好使用Java吗？如果可能的话，...

javapythonnlpinformation-retrievaltext-mining

10得票2回答

保持R语言语料库的文档ID

我已经在stackoverflow和网络上搜索过，只能找到部分解决方案或因TM或qdap的更改而无法正常工作的解决方案。以下是问题：我有一个数据框：ID和Text（简单的文档id/name和一些text）我有两个问题： Part 1:如何创建tdm或dtm并保持文档名称/ id？在...

rtexttext-miningtmcorpus

10得票2回答

基于大规模在线对话文本的情感分析

标题已经说明了一切; 我有一个装满在线对话文本的SQL数据库。我已经用Python完成了这个项目的大部分工作，因此我想使用Python的NLTK库来完成这个项目（除非有强烈的理由不这样做）。数据按线程、用户名和帖子组织。每个线程更多地专注于讨论我感兴趣的类别的一个“产品”。最终，当这个项目...

pythonnlpnltktext-miningsentiment-analysis

9得票2回答

如何使用tf-idf对新文档进行分类？

如果我使用来自sklearn的TfidfVectorizer生成特征向量如下： features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments) 那么我该如何生成用于分类新文档的特征向量...

pythonscikit-learntext-miningtf-idftext-analysis

9得票2回答

OpenNLP中训练时的'cut-off'和'iteration'是什么意思？

cut-off 和 iteration 在 OpenNLP 中的训练中有什么含义？或者说在自然语言处理中都是怎样的概念。我只需要这些术语的通俗易懂的解释。就我所知，iteration 指的是算法重复迭代的次数，而 cut-off 是一个阈值，如果文本某个特定类别的值高于这个阈值，那么它将被映射...

text-miningopennlp