25得票3回答
如何计算单个新文档的TF*IDF以进行分类?

我正在使用文档-术语向量来表示一组文档。我使用TF*IDF来计算每个文档向量的术语权重。然后,我可以使用此矩阵为文档分类训练模型。 我希望能够在未来对新文档进行分类。但是为了对其进行分类,我需要首先将文档转换为文档-术语向量,向量也应由TF*IDF值组成。 我的问题是,我如何仅使用单个文档...

25得票3回答
scikit-learn TfidfVectorizer的含义是什么?

我在阅读关于TfidfVectorizer的scikit-learn实现的文档,但是我不理解该方法的输出结果,例如: new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Ja...

25得票5回答
有哪些经过验证的算法可以用于推荐相关文章?

这种情况很常见。假设你有一个博客或新闻网站,有许多文章或博客或其他你称之为的内容,你想在每篇文章底部建议看起来相关的其他文章。 让我们假设每个项目都没有太多元数据。也就是说,没有标签、分类。将其视为一个大文本块,包括标题和作者名。 如何找到可能相关的文档呢? 我对实际算法非常感兴趣,而不...

15得票7回答
文本分类/归类算法

我的目标是[半]自动地将文本分配到不同的类别中。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人工定义的分类中学习,然后自动分类新的文本。 是否有人能建议这样的算法,并且可能有实现它的.NET库?

14得票3回答
监督式潜在狄利克雷分配用于文档分类。

我有一堆已经被人手分类好的文档,分为一些组。 是否有可修改版本的lda可以用来训练模型,并随后用它对未知文档进行分类?

13得票4回答
可扩展或在线的多标签分类器(Out-of-Core Multi-Label Classifiers)

在过去的2-3周中,我一直在为这个问题苦苦思索。我的问题是多标签(而不是多类)问题,其中每个样本可以属于几个标签。 我有大约450万个文本文档作为训练数据,以及约100万个文本文档作为测试数据。标签数约为35K。 我正在使用scikit-learn。对于特征提取,我之前使用的是TfidfV...

11得票8回答
理解贝叶斯定理

我正在实现一个朴素贝叶斯分类器。Programming Collective Intelligence这本书介绍了这个主题,通过描述贝叶斯定理: Pr(A | B) = Pr(B | A) x Pr(A)/Pr(B) 除了一个与文档分类相关的具体示例: Pr(Category | Do...

8得票2回答
在RTextTools中创建分析模型

我正在尝试将文本文档分类到多个类别中。 我的下面的代码运行良好。 matrix[[i]] <- create_matrix(trainingdata[[i]][,1], language="english",removeNumbers=FALSE,stemWords=FALSE,wei...

7得票1回答
NLTK - 多标签分类

我正在使用NLTK对文档进行分类,每个文档有1个标签,共有10种类型的文档。 为了进行文本提取,我正在清理文本(去除标点符号、HTML标记、小写化),删除nltk.corpus.stopwords以及我自己的停用词集合。 对于我的文档特征,我正在查看所有50k个文档,并收集前2k个单词,按...

7得票3回答
多标签文档分类

我有一个数据库,其中存储了基于以下三个字段的数据:id、文本和{标签}。请注意,每个文本已被分配给多个标签\标记\类别。我想建立一个模型(weka\rapidminer\mahout),能够推荐\分类一堆标签\标记\类别到给定的文本。 我听说过SVM和朴素贝叶斯分类器,但不确定它们是否支持多...