我应该如何在随机森林中使用Spark的特征重要性？

Question

我应该如何在随机森林中使用Spark的特征重要性？

scalaapache-sparkrandom-forestapache-spark-mllib

9

文档中没有包含随机森林的特征重要性。但是，它在Jira上被列为已解决，并且已经在源代码中实现。这里还指出：“此API与原始MLlib集成API之间的主要区别是：”

支持DataFrame和ML Pipelines
分类与回归的分离
使用DataFrame元数据区分连续和分类特征
更多随机森林功能：特征重要性估计，以及分类中每个类别的预测概率（也称为类条件概率）。

然而，我无法找到一个可用的语法来调用这个新功能。

scala> model
res13: org.apache.spark.mllib.tree.model.RandomForestModel = 
TreeEnsembleModel classifier with 10 trees

scala> model.featureImportances
<console>:60: error: value featureImportances is not a member of org.apache.spark.mllib.tree.model.RandomForestModel
              model.featureImportances

- Climbs_lika_Spyder

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Climbs_lika_Spyder · Accepted Answer

你需要使用新的随机森林算法。检查你的导入。

旧版代码：

import org.apache.spark.mllib.tree.RandomForest
import org.apache.spark.mllib.tree.model.RandomForestModel

新的随机森林使用：

import org.apache.spark.ml.classification.RandomForestClassificationModel
import org.apache.spark.ml.classification.RandomForestClassifier

这个 Stack Overflow 的答案提供了提取重要性代码的方法。

这个 Stack Overflow 的答案解释了返回的稀疏向量。