我在使用相同的RandomForest技术和数据集时,在WEKA和scikit之间得到了奇怪的结果差异。在scikit中,我得到了大约0.62的AUC(一直如此,因为我进行了广泛的测试)。然而,在WEKA中,我得到了接近0.79的结果。这是一个巨大的差异!
我测试算法的数据集是KC1.arff,我将其副本放在我的公共Dropbox文件夹中https://dl.dropbox.com/u/30688032/KC1.arff。对于WEKA,我只需从http://www.cs.waikato.ac.nz/ml/weka/downloading.html下载.jar文件即可。在WEKA中,我将交叉验证参数设置为10折,数据集设置为KC1.arff,算法设置为“RandomForest -l 19 -K 0 -S 1”。然后运行代码!生成WEKA结果后,应将其保存为文件,.csv或.arff。读取该文件并检查“Area_under_ROC”列,它应该与0.79左右相近。
请记住,实际 auc 值在相关论文的实验结果中显示约为 0.79,因此问题在于我使用的 scikit 随机森林实现。您的帮助将不胜感激!非常感谢!
我测试算法的数据集是KC1.arff,我将其副本放在我的公共Dropbox文件夹中https://dl.dropbox.com/u/30688032/KC1.arff。对于WEKA,我只需从http://www.cs.waikato.ac.nz/ml/weka/downloading.html下载.jar文件即可。在WEKA中,我将交叉验证参数设置为10折,数据集设置为KC1.arff,算法设置为“RandomForest -l 19 -K 0 -S 1”。然后运行代码!生成WEKA结果后,应将其保存为文件,.csv或.arff。读取该文件并检查“Area_under_ROC”列,它应该与0.79左右相近。
以下是scikit的随机森林代码
import numpy as np
from pandas import *
from sklearn.ensemble import RandomForestClassifier
def read_arff(f):
from scipy.io import arff
data, meta = arff.loadarff(f)
return DataFrame(data)
def kfold(clr,X,y,folds=10):
from sklearn.cross_validation import StratifiedKFold
from sklearn import metrics
auc_sum=0
kf = StratifiedKFold(y, folds)
for train_index, test_index in kf:
X_train, X_test = X[train_index], X[test_index]
y_train, y_test = y[train_index], y[test_index]
clr.fit(X_train, y_train)
pred_test = clr.predict(X_test)
print metrics.auc_score(y_test,pred_test)
auc_sum+=metrics.auc_score(y_test,pred_test)
print 'AUC: ', auc_sum/folds
print "----------------------------"
#read the dataset
X=read_arff('KC1.arff')
y=X['Defective']
#changes N, and Y to 0, and 1 respectively
s = np.unique(y)
mapping = Series([x[0] for x in enumerate(s)], index = s)
y=y.map(mapping)
del X['Defective']
#initialize random forests (by defualt it is set to 10 trees)
rf=RandomForestClassifier()
#run algorithm
kfold(rf,np.array(X),y)
#You will get an average AUC around 0.62 as opposed to 0.79 in WEKA
请记住,实际 auc 值在相关论文的实验结果中显示约为 0.79,因此问题在于我使用的 scikit 随机森林实现。您的帮助将不胜感激!非常感谢!