我正在使用Python的sklearn包中实现的RandomForestClassifier构建二元分类模型。以下是交叉验证的结果:
Fold 1 : Train: 164 Test: 40
Train Accuracy: 0.914634146341
Test Accuracy: 0.55
Fold 2 : Train: 163 Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.707317073171
Fold 3 : Train: 163 Test: 41
Train Accuracy: 0.889570552147
Test Accuracy: 0.585365853659
Fold 4 : Train: 163 Test: 41
Train Accuracy: 0.871165644172
Test Accuracy: 0.756097560976
Fold 5 : Train: 163 Test: 41
Train Accuracy: 0.883435582822
Test Accuracy: 0.512195121951
我正在使用“价格”功能来预测一个序数值“质量”。在每次交叉验证中,有163个训练例子和41个测试例子。
显然,这里出现了过拟合。那么是否有任何参数可以用sklearn提供来克服这个问题呢?我在这里找到了一些参数(链接),例如最小样本分割和最小样本叶片,但我不太明白如何调整它们。
先行致谢!