有没有人知道好的开源文本分类模型?我知道Stanford Classifier、Weka、Mallet等,但它们都需要训练。 我需要将新闻文章分类为体育/政治/健康/游戏等。是否有预训练的模型可用? Alchemy、OpenCalais等不是选项。我需要开源工具(最好是Java)。
我有一个使用scikit的tfidf向量化器得到的csr_matrix X,以及一个数组y。 我的计划是使用LDA创建特征,但是我无法找到如何使用gensim的语料库变量用X作为csr_matrix进行初始化。换句话说,我不想像gensim文档中所示那样下载语料库或将X转换为密集矩阵,因为这...
嘿,这是我的问题, 给定一组文档,我需要将每个文档分配到预定义的类别中。 我打算使用n-gram方法表示每个文档的文本内容,然后在我有的训练数据上训练SVM分类器。 如果我理解错了,请纠正我。 现在的问题是类别应该是动态的。意思是,我的分类器应该处理具有新类别的新训练数据。 例如,如果...