有没有人知道如何在朴素贝叶斯分类时设置alpha参数?
例如,我首先使用词袋模型构建特征矩阵,矩阵的每个单元格都是单词计数,然后我使用tf(词项频率)对矩阵进行归一化。
但是,当我使用朴素贝叶斯构建分类器模型时,我选择使用多项式N.B(我认为这是正确的,而不是伯努利和高斯)。默认的alpha设置为1.0(文档中说这是拉普拉斯平滑,我不知道是什么)。
结果非常糟糕,只有21%的召回率才能找到正类(目标类)。但是当我将alpha设置为0.0001(我随机选择的)时,结果得到95%的召回分数。
此外,我检查了多项式N.B formula,我认为这是因为alpha的问题,因为如果我使用单词计数作为特征,那么alpha = 1不会影响结果,但是由于tf介于0-1之间,因此alpha = 1确实会影响此公式的结果。
我还测试了不使用tf,只使用词袋中的计数,结果也达到了95%,所以,有人知道如何设置alpha值吗?因为我必须使用tf作为特征矩阵。谢谢。