我正在使用简单的朴素贝叶斯算法在mahout中制作文档分类器。目前,我有98%的数据(文件)属于A类,只有2%属于B类。我的问题是,由于A类文档与B类文档的百分比存在如此大的差距,分类器是否仍能准确地进行训练?
我考虑的做法是忽略一大堆A类文档并“操纵”我所拥有的数据集,以便文档的组成没有这样大的差距。因此,最终得到的数据集将包含30%的B类和70%的A类。但是,我是否没有意识到这样做会产生任何后果?
我考虑的做法是忽略一大堆A类文档并“操纵”我所拥有的数据集,以便文档的组成没有这样大的差距。因此,最终得到的数据集将包含30%的B类和70%的A类。但是,我是否没有意识到这样做会产生任何后果?