文档中没有包含随机森林的特征重要性。但是,它在Jira上被列为已解决,并且已经在源代码中实现。这里还指出:“此API与原始MLlib集成API之间的主要区别是:”
- 支持DataFrame和ML Pipelines
- 分类与回归的分离
- 使用DataFrame元数据区分连续和分类特征
- 更多随机森林功能:特征重要性估计,以及分类中每个类别的预测概率(也称为类条件概率)。
然而,我无法找到一个可用的语法来调用这个新功能。
scala> model
res13: org.apache.spark.mllib.tree.model.RandomForestModel =
TreeEnsembleModel classifier with 10 trees
scala> model.featureImportances
<console>:60: error: value featureImportances is not a member of org.apache.spark.mllib.tree.model.RandomForestModel
model.featureImportances