得票数最多 'document-classification' 问题

关联标签

25得票3回答

我正在使用文档-术语向量来表示一组文档。我使用TF*IDF来计算每个文档向量的术语权重。然后，我可以使用此矩阵为文档分类训练模型。我希望能够在未来对新文档进行分类。但是为了对其进行分类，我需要首先将文档转换为文档-术语向量，向量也应由TF*IDF值组成。我的问题是，我如何仅使用单个文档...

25得票3回答

我在阅读关于TfidfVectorizer的scikit-learn实现的文档，但是我不理解该方法的输出结果，例如： new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Ja...

25得票5回答

这种情况很常见。假设你有一个博客或新闻网站，有许多文章或博客或其他你称之为的内容，你想在每篇文章底部建议看起来相关的其他文章。让我们假设每个项目都没有太多元数据。也就是说，没有标签、分类。将其视为一个大文本块，包括标题和作者名。如何找到可能相关的文档呢？我对实际算法非常感兴趣，而不...

15得票7回答

我的目标是[半]自动地将文本分配到不同的类别中。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人工定义的分类中学习，然后自动分类新的文本。是否有人能建议这样的算法，并且可能有实现它的.NET库？

14得票3回答

我有一堆已经被人手分类好的文档，分为一些组。是否有可修改版本的lda可以用来训练模型，并随后用它对未知文档进行分类？

13得票4回答

在过去的2-3周中，我一直在为这个问题苦苦思索。我的问题是多标签（而不是多类）问题，其中每个样本可以属于几个标签。我有大约450万个文本文档作为训练数据，以及约100万个文本文档作为测试数据。标签数约为35K。我正在使用scikit-learn。对于特征提取，我之前使用的是TfidfV...

11得票8回答

我正在实现一个朴素贝叶斯分类器。Programming Collective Intelligence这本书介绍了这个主题，通过描述贝叶斯定理： Pr(A | B) = Pr(B | A) x Pr(A)/Pr(B) 除了一个与文档分类相关的具体示例: Pr(Category | Do...

8得票2回答

我正在尝试将文本文档分类到多个类别中。我的下面的代码运行良好。 matrix[[i]] <- create_matrix(trainingdata[[i]][,1], language="english",removeNumbers=FALSE,stemWords=FALSE,wei...

7得票1回答

我正在使用NLTK对文档进行分类，每个文档有1个标签，共有10种类型的文档。为了进行文本提取，我正在清理文本（去除标点符号、HTML标记、小写化），删除nltk.corpus.stopwords以及我自己的停用词集合。对于我的文档特征，我正在查看所有50k个文档，并收集前2k个单词，按...

7得票3回答

我有一个数据库，其中存储了基于以下三个字段的数据：id、文本和{标签}。请注意，每个文本已被分配给多个标签\标记\类别。我想建立一个模型（weka\rapidminer\mahout），能够推荐\分类一堆标签\标记\类别到给定的文本。我听说过SVM和朴素贝叶斯分类器，但不确定它们是否支持多...