得票数最多 'document-classification' 问题 - 第2页

关联标签

7得票4回答

有人能提供一个带有词频信息的字典单词列表的建议吗？理想情况下，来源应该是北美英语单词。

7得票4回答

有没有人知道好的开源文本分类模型？我知道Stanford Classifier、Weka、Mallet等，但它们都需要训练。我需要将新闻文章分类为体育/政治/健康/游戏等。是否有预训练的模型可用？ Alchemy、OpenCalais等不是选项。我需要开源工具（最好是Java）。

7得票1回答

我有一个使用scikit的tfidf向量化器得到的csr_matrix X，以及一个数组y。我的计划是使用LDA创建特征，但是我无法找到如何使用gensim的语料库变量用X作为csr_matrix进行初始化。换句话说，我不想像gensim文档中所示那样下载语料库或将X转换为密集矩阵，因为这...

7得票3回答

嘿，这是我的问题，给定一组文档，我需要将每个文档分配到预定义的类别中。我打算使用n-gram方法表示每个文档的文本内容，然后在我有的训练数据上训练SVM分类器。如果我理解错了，请纠正我。现在的问题是类别应该是动态的。意思是，我的分类器应该处理具有新类别的新训练数据。例如，如果...