我正在使用scikit-learn多项式朴素贝叶斯分类器进行二元文本分类(分类器告诉我文档是否属于类别X)。我使用一个平衡的数据集来训练我的模型,并使用一个平衡的测试集进行测试,结果非常有前途。
这个分类器需要实时运行并不断随机分析文档。
然而,当我在生产环境中运行我的分类器时,误报率非常高,因此我最终得到的精度非常低。原因很简单:在实时场景中,分类器遇到的负样本要多得多(大约90%的时间),这与我用于测试和训练的理想平衡数据集不符。
在训练过程中是否有一种方法可以模拟这种实时情况,或者是否有任何技巧可以使用(包括对文档进行预处理以查看它们是否适合分类器)?
我打算使用一个不平衡的数据集来训练我的分类器,其比例与实时情况相同,但我担心这可能会使朴素贝叶斯偏向于负类并失去我在正类上的召回率。
感谢您的任何建议。
这个分类器需要实时运行并不断随机分析文档。
然而,当我在生产环境中运行我的分类器时,误报率非常高,因此我最终得到的精度非常低。原因很简单:在实时场景中,分类器遇到的负样本要多得多(大约90%的时间),这与我用于测试和训练的理想平衡数据集不符。
在训练过程中是否有一种方法可以模拟这种实时情况,或者是否有任何技巧可以使用(包括对文档进行预处理以查看它们是否适合分类器)?
我打算使用一个不平衡的数据集来训练我的分类器,其比例与实时情况相同,但我担心这可能会使朴素贝叶斯偏向于负类并失去我在正类上的召回率。
感谢您的任何建议。