我应该如何在随机森林中使用Spark的特征重要性?

9

文档中没有包含随机森林的特征重要性。但是,它在Jira上被列为已解决,并且已经在源代码中实现。这里还指出:“此API与原始MLlib集成API之间的主要区别是:”

  • 支持DataFrame和ML Pipelines
  • 分类与回归的分离
  • 使用DataFrame元数据区分连续和分类特征
  • 更多随机森林功能:特征重要性估计,以及分类中每个类别的预测概率(也称为类条件概率)。

然而,我无法找到一个可用的语法来调用这个新功能。

scala> model
res13: org.apache.spark.mllib.tree.model.RandomForestModel = 
TreeEnsembleModel classifier with 10 trees

scala> model.featureImportances
<console>:60: error: value featureImportances is not a member of org.apache.spark.mllib.tree.model.RandomForestModel
              model.featureImportances
1个回答

3

有了新的导入(RandomForestClassificationModel),如何训练模型?@Climbs_lika_Spyder - Yaeli778
2
@Yaeli778,这里有一个很好的训练模型的例子,网址是https://spark.apache.org/docs/1.5.2/ml-ensembles.html。 - Zak Kann
你能指导如何从pyspark中获取featureImportance吗? - pseudocode
7
请问您应该如何使用特征重要性呢?它们通常是大型的稀疏向量,不易解释。您该如何将它们转化为有用的信息呢? - rjurney

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接