我有超过15000个特定主题的文本文件。我想基于这些文件构建语言模型,以便我可以向该模型呈现各种主题的新文本文件,并使算法告诉我新文档是否属于同一主题。
我尝试了sklearn.naive_bayes.MultinomialNB
, sklearn.svm.classes.LinearSVC
以及其他算法,但是我遇到了以下问题:
这些算法需要具有多个标签或类别的训练数据,而我只有涵盖特定主题的网页,其他文档没有标签并且涵盖许多不同的主题。
我希望能够得到如何使用只有一个标签的数据来训练模型的任何指导,或者总体上如何进行。目前我所拥有的是:
c = MultinomialNB()
c.fit(X_train, y_train)
c.predict(X_test)
非常感谢。