如何在Spark Mllib中训练随机森林二元分类器模型时获取模型指标(F score,AUROC,AUPRC等)?
问题在于BinaryClassificationMetrics
需要概率,而随机森林分类器的预测方法返回0或1的离散值。
参见:https://spark.apache.org/docs/latest/mllib-evaluation-metrics.html#binary-classification
RandomForest.trainClassifier
没有任何clearThreshold
方法,这会使它返回概率而不是离散的0或1标签。
ml
API,可以帮助找到解决方案。请查看更新的答案,其中包括了 Apache 文档示例并针对此问题进行了调整。 - Răzvan Flavius Panda