我正在使用Weka处理一个二元分类问题,数据集存在严重的不平衡性(其中90%属于一类,10%属于另一类)。我首先对整个数据集应用了SMOTE算法(http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume16/chawla02a-html/node6.html),以平衡类别,然后对新获得的数据进行了10折交叉验证。我发现结果过于乐观,F1值约为90%。
这是由于过度采样导致的吗? 在应用SMOTE算法的数据上执行交叉验证是否是不好的做法? 有没有解决这个问题的方法?