class sklearn.ensemble.RandomForestClassifier(n_estimators=10,
criterion='gini',
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.0,
max_features='auto',
max_leaf_nodes=None,
bootstrap=True,
oob_score=False,
n_jobs=1,
random_state=None,
verbose=0,
warm_start=False,
class_weight=None)
我正在使用一个有9个样本和大约7000个属性的随机森林模型。在这些样本中,有3个类别被我的分类器识别出来。
我知道这远非理想条件,但我试图找出哪些属性对于特征预测最重要。为了优化特征重要性,哪些参数是最好调整的呢?
我尝试了不同的n_estimators
,并注意到“显著特征”的数量(即feature_importances_
数组中的非零值)大幅增加。
我已经阅读了文档,但如果有人有任何经验,请告诉我哪些参数是最好调整的,并简要说明原因。