7得票4回答
下载的词典文件

有人能提供一个带有词频信息的字典单词列表的建议吗? 理想情况下,来源应该是北美英语单词。

7得票4回答
文本分类分类器

有没有人知道好的开源文本分类模型?我知道Stanford Classifier、Weka、Mallet等,但它们都需要训练。 我需要将新闻文章分类为体育/政治/健康/游戏等。是否有预训练的模型可用? Alchemy、OpenCalais等不是选项。我需要开源工具(最好是Java)。

7得票1回答
如何使用csr_matrix初始化gensim语料库变量?

我有一个使用scikit的tfidf向量化器得到的csr_matrix X,以及一个数组y。 我的计划是使用LDA创建特征,但是我无法找到如何使用gensim的语料库变量用X作为csr_matrix进行初始化。换句话说,我不想像gensim文档中所示那样下载语料库或将X转换为密集矩阵,因为这...

7得票3回答
哪种分类算法可用于文档分类?

嘿,这是我的问题, 给定一组文档,我需要将每个文档分配到预定义的类别中。 我打算使用n-gram方法表示每个文档的文本内容,然后在我有的训练数据上训练SVM分类器。 如果我理解错了,请纠正我。 现在的问题是类别应该是动态的。意思是,我的分类器应该处理具有新类别的新训练数据。 例如,如果...